Izdvajanje teksta iz PDF dokumenta pomoću Java REST API-ja

Ovaj kratki vodič objašnjava kako izvući tekst iz PDF dokumenta pomoću Java REST API-ja. Naučit ćete izvući tekst iz PDF-a pomoću Java API-ja koristeći Java Cloud SDK. Demonstrira cijeli postupak dijeljenjem primjera koda za čitanje i prikaz PDF teksta.

Preduvjet

Koraci za izdvajanje PDF teksta pomoću Java Low Code API-ja

  1. Konfigurirajte PdfApi tako da navedete ključ aplikacije i SID za čitanje PDF datoteke
  2. Prenesite izvornu PDF datoteku za izdvajanje teksta
  3. Pozovite metodu DohvatiTekst() nakon uspješnog prijenosa izvorne PDF datoteke
  4. Postavite pravokutno područje stranice s kojeg će se tekst dohvaćati na svim stranicama
  5. Analiziraj sve pojave teksta u API odgovoru i prikaži tekst

Ovi koraci obuhvaćaju postupak čitanja PDF teksta pomoću Java RESTful usluge. Učitajte PDF datoteku u pohranu u oblaku i pozovite metodu GetText() za dohvaćanje svih pojavljivanja teksta sa svih stranica u učitanoj PDF datoteci iz navedenog pravokutnika na stranici. Pohvalite sva pojavljivanja u odgovoru i prikažite broj stranice i tekst.

Kod za preuzimanje teksta iz PDF-a pomoću Java REST sučelja

Ovaj kod demonstrira postupak dohvaćanja teksta iz PDF-a pomoću Java REST sučelja. Pravokutno područje sastoji se od donje lijeve x i y pozicije i gornje desne x i y pozicije unutar koje želite dohvatiti tekst. Ako trebate dohvatiti tekst s jedne stranice, upotrijebite metodu GetPageText() koja zahtijeva broj stranice kao dodatni argument za odabir stranice.

Ovaj članak nas je naučio čitati PDF datoteku bez korištenja softvera za čitanje PDF-ova instaliranog na vašem sustavu. Ako želite prebrojati broj riječi u PDF datoteci, pogledajte članak o Brojanje riječi u PDF dokumentu pomoću Java REST API-ja.

 Hrvatski