Szöveg kinyerése PDF dokumentumból Java REST API-val

Ez a rövid oktatóanyag elmagyarázza, hogyan kinyerhetsz szöveget PDF dokumentumból Java REST API-val. Megtanulod, hogyan kinyerhetsz szöveget PDF-ből Java-alapú API-val egy Java-alapú Cloud SDK használatával. A teljes folyamatot bemutatja egy mintakód megosztásával, amely a PDF szövegének olvasására és megjelenítésére szolgál.

Előfeltétel

PDF szöveg kinyerésének lépései Java Low Code API-val

  1. Konfigurálja a PdfApi-t az alkalmazáskulcs és a SID megadásával a PDF-fájl olvasásához.
  2. Töltse fel a forrás PDF fájlt a szöveg kinyeréséhez
  3. A forrás PDF fájl sikeres feltöltése után hívja meg a GetText() metódust
  4. Állítsa be az oldal téglalap alakú területét, ahonnan a szöveget az összes oldalon le kell tölteni
  5. Az API-válaszban szereplő szöveg összes előfordulásának elemzése és a szöveg megjelenítése

Ezek a lépések a PDF szöveg Java RESTful szolgáltatással történő beolvasását foglalják magukban. Töltse be a PDF fájlt a felhőalapú tárhelyre, és hívja meg a GetText() metódust, hogy a szöveg összes előfordulását lekérje a betöltött PDF fájl összes oldaláról a megadott téglalapból. A válaszban dicsérje meg az összes előfordulást, és jelenítse meg az oldalszámot és a szöveget.

Kód szöveg PDF-ből való kiolvasásához Java REST felülettel

Ez a kód bemutatja a szöveg PDF-ből történő lekérésének folyamatát Java REST interfésszel. A téglalap alakú terület a bal alsó x és y pozícióból, valamint a jobb felső x és y pozícióból áll, amelyeken belül a szöveget le szeretnéd kérni. Ha egyetlen oldalról kell szöveget lekérned, használd a GetPageText() metódust, amelyhez az oldal kiválasztásához további argumentumként oldalszám szükséges.

Ez a cikk megtanította nekünk, hogyan olvassunk PDF fájlokat anélkül, hogy bármilyen PDF-olvasó szoftvert használnánk a rendszerünkön. Ha meg szeretné számolni a PDF fájlban lévő szavak számát, olvassa el a Szavak számlálása PDF dokumentumban Java REST API-val oldalon található cikket.

 Magyar