Šioje trumpoje pamokoje paaiškinama, kaip išgauti tekstą iš PDF dokumento naudojant Java REST API. Išmoksite išgauti tekstą iš PDF failo naudojant Java pagrindu veikiančią API naudojant Java pagrindu veikiančią debesijos SDK. Joje demonstruojamas visas procesas, pateikiant pavyzdinį kodą, skirtą PDF tekstui skaityti ir rodyti.
Būtina sąlyga
- Paskyros kūrimo API prisijungimo duomenys ištraukti tekstą iš PDF failo
- Atsisiųskite Aspose.PDF debesies SDK, skirtas Dotjava, kad galėtumėte skaityti PDF failą
- Nustatykite Java projektą su aukščiau pateiktu SDK tekstui gauti
PDF teksto išgavimo naudojant „Java Low Code API“ veiksmai
- Konfigūruokite PdfApi pateikdami programos raktą ir SID, kad galėtumėte nuskaityti PDF failą.
- Įkelkite šaltinio PDF failą tekstui išgauti
- Sėkmingai įkėlus šaltinio PDF failą, iškvieskite Gauti tekstą() metodą
- Nustatykite stačiakampę puslapio sritį, iš kurios bus imamas tekstas visuose puslapiuose
- Išanalizuoti visus teksto atvejus API atsakyme ir parodyti tekstą
Šie veiksmai apima procesą, skirtą skaityti PDF tekstą naudojant Java RESTful paslaugą. Įkelkite PDF failą į debesies saugyklą ir iškvieskite metodą GetText(), kad gautumėte visus teksto pasikartojimus iš visų įkelto PDF failo puslapių iš nurodyto puslapio stačiakampio. Atsakyme pagirkite visus pasikartojimus ir parodykite puslapio numerį bei tekstą.
Kodas tekstui iš PDF failo paimti naudojant „Java REST“ sąsają
Šis kodas demonstruoja teksto gavimo iš PDF failo procesą naudojant Java REST sąsają. Stačiakampė sritis susideda iš apatinės kairės x ir y pozicijos ir viršutinės dešinės x ir y pozicijos, kurioje norite gauti tekstą. Jei jums reikia gauti tekstą iš vieno puslapio, naudokite metodą GetPageText(), kuriam reikia puslapio numerio kaip papildomo argumento puslapiui pasirinkti.
Šis straipsnis išmokė mus skaityti PDF failą nenaudojant jokios sistemoje įdiegtos PDF skaitymo programinės įrangos. Jei norite suskaičiuoti žodžių skaičių PDF faile, žr. straipsnį Žodžių skaičiavimas PDF dokumente naudojant Java REST API.