Extrahování textu z PDF dokumentu pomocí Java REST API

Tento krátký tutoriál vysvětluje, jak extrahovat text z dokumentu PDF pomocí Java REST API. Naučíte se extrahovat text z PDF pomocí Java API s využitím Java Cloud SDK. Předvádí celý proces sdílením ukázkového kódu pro čtení a zobrazení textu PDF.

Předpoklad

Kroky k extrakci textu PDF pomocí Java Low Code API

  1. Nakonfigurujte PdfApi zadáním klíče aplikace a SID pro čtení souboru PDF.
  2. Nahrajte zdrojový PDF soubor pro extrakci textu
  3. Po úspěšném nahrání zdrojového PDF souboru zavolejte metodu GetText().
  4. Nastavte obdélníkovou oblast stránky, ze které se má načítat text na všech stránkách
  5. Analyzovat všechny výskyty textu v odpovědi API a zobrazit text

Tyto kroky zahrnují proces čtení PDF textu pomocí služby Java RESTful. Načtěte PDF soubor do cloudového úložiště a zavolejte metodu GetText() pro načtení všech výskytů textu ze všech stránek v načteném PDF souboru ze zadaného obdélníku na stránce. Projděte si všechny výskyty v odpovědi a zobrazte číslo stránky a text.

Kód pro načtení textu z PDF pomocí rozhraní Java REST

Tento kód demonstruje proces načtení textu z PDF pomocí rozhraní Java REST. Obdélníková oblast se skládá z levé dolní osy x a y a pravé horní osy x a y, ve kterých chcete text načíst. Pokud potřebujete načíst text z jedné stránky, použijte metodu GetPageText(), která vyžaduje číslo stránky jako další argument pro výběr stránky.

Tento článek nás naučil číst soubor PDF bez použití jakéhokoli softwaru pro čtení PDF nainstalovaného ve vašem systému. Pokud chcete spočítat počet slov v souboru PDF, podívejte se na článek o {{HYPERLINK1}}.

 Čeština