Tento krátký tutoriál vysvětluje, jak extrahovat text z dokumentu PDF pomocí Java REST API. Naučíte se extrahovat text z PDF pomocí Java API s využitím Java Cloud SDK. Předvádí celý proces sdílením ukázkového kódu pro čtení a zobrazení textu PDF.
Předpoklad
- Vytvořte si účet pomocí přihlašovacích údajů API extrahovat text z PDF
- Stáhněte si Aspose.PDF Cloud SDK pro DotJavu pro čtení PDF souboru
- Nastavení projektu Java s výše uvedeným SDK pro načítání textu
Kroky k extrakci textu PDF pomocí Java Low Code API
- Nakonfigurujte PdfApi zadáním klíče aplikace a SID pro čtení souboru PDF.
- Nahrajte zdrojový PDF soubor pro extrakci textu
- Po úspěšném nahrání zdrojového PDF souboru zavolejte metodu GetText().
- Nastavte obdélníkovou oblast stránky, ze které se má načítat text na všech stránkách
- Analyzovat všechny výskyty textu v odpovědi API a zobrazit text
Tyto kroky zahrnují proces čtení PDF textu pomocí služby Java RESTful. Načtěte PDF soubor do cloudového úložiště a zavolejte metodu GetText() pro načtení všech výskytů textu ze všech stránek v načteném PDF souboru ze zadaného obdélníku na stránce. Projděte si všechny výskyty v odpovědi a zobrazte číslo stránky a text.
Kód pro načtení textu z PDF pomocí rozhraní Java REST
Tento kód demonstruje proces načtení textu z PDF pomocí rozhraní Java REST. Obdélníková oblast se skládá z levé dolní osy x a y a pravé horní osy x a y, ve kterých chcete text načíst. Pokud potřebujete načíst text z jedné stránky, použijte metodu GetPageText(), která vyžaduje číslo stránky jako další argument pro výběr stránky.
Tento článek nás naučil číst soubor PDF bez použití jakéhokoli softwaru pro čtení PDF nainstalovaného ve vašem systému. Pokud chcete spočítat počet slov v souboru PDF, podívejte se na článek o {{HYPERLINK1}}.