Ovaj kratki vodič objašnjava kako izvući tekst iz PDF dokumenta pomoću Java REST API-ja. Naučit ćete izvući tekst iz PDF-a pomoću Java API-ja koristeći Java Cloud SDK. Demonstrira cijeli postupak dijeljenjem primjera koda za čitanje i prikaz PDF teksta.
Preduvjet
- Izradite API vjerodajnice za račun izdvajanje teksta iz PDF-a
- Preuzmite Aspose.PDF Cloud SDK za DotJavu za čitanje PDF datoteke
- Postavite Java projekt s gore navedenim SDK-om za dohvaćanje teksta
Koraci za izdvajanje PDF teksta pomoću Java Low Code API-ja
- Konfigurirajte PdfApi tako da navedete ključ aplikacije i SID za čitanje PDF datoteke
- Prenesite izvornu PDF datoteku za izdvajanje teksta
- Pozovite metodu DohvatiTekst() nakon uspješnog prijenosa izvorne PDF datoteke
- Postavite pravokutno područje stranice s kojeg će se tekst dohvaćati na svim stranicama
- Analiziraj sve pojave teksta u API odgovoru i prikaži tekst
Ovi koraci obuhvaćaju postupak čitanja PDF teksta pomoću Java RESTful usluge. Učitajte PDF datoteku u pohranu u oblaku i pozovite metodu GetText() za dohvaćanje svih pojavljivanja teksta sa svih stranica u učitanoj PDF datoteci iz navedenog pravokutnika na stranici. Pohvalite sva pojavljivanja u odgovoru i prikažite broj stranice i tekst.
Kod za preuzimanje teksta iz PDF-a pomoću Java REST sučelja
Ovaj kod demonstrira postupak dohvaćanja teksta iz PDF-a pomoću Java REST sučelja. Pravokutno područje sastoji se od donje lijeve x i y pozicije i gornje desne x i y pozicije unutar koje želite dohvatiti tekst. Ako trebate dohvatiti tekst s jedne stranice, upotrijebite metodu GetPageText() koja zahtijeva broj stranice kao dodatni argument za odabir stranice.
Ovaj članak nas je naučio čitati PDF datoteku bez korištenja softvera za čitanje PDF-ova instaliranog na vašem sustavu. Ako želite prebrojati broj riječi u PDF datoteci, pogledajte članak o Brojanje riječi u PDF dokumentu pomoću Java REST API-ja.