Extrahujte text z dokumentu PDF pomocí Node.js REST API

Tento krátký tutoriál vysvětluje, jak extrahovat text z dokumentu PDF pomocí Node.js REST API. Naučíte se extrahovat text z PDF pomocí API založeného na Node.js pomocí Cloud SDK založeného na Node.js. Demonstruje kompletní proces sdílením ukázkového kódu pro čtení a zobrazení textu PDF.

Předpoklad

Kroky k extrahování textu PDF pomocí rozhraní Node.js Low Code API

  1. Nakonfigurujte PdfApi zadáním aplikačního klíče a SID pro čtení souboru PDF
  2. Nahrajte zdrojový soubor PDF pro extrahování textu
  3. Po úspěšném nahrání zdrojového souboru PDF zavolejte metodu GetText()
  4. Nastavte obdélníkovou oblast stránky, ze které má být načten text na všech stránkách
  5. Analyzujte všechny výskyty textu v odpovědi API a zobrazte text

Tyto kroky zahrnují proces čtení textu PDF pomocí Node.js RESTful Service. Načtěte soubor PDF do cloudového úložiště a zavolejte metodu GetText() k načtení všech výskytů textu ze všech stránek v načteném souboru PDF ze zadaného obdélníku na stránce. Pochvalte všechny výskyty v odpovědi a zobrazte číslo stránky a text.

Kód pro uchopení textu z PDF pomocí rozhraní Node.js REST

Tento kód demonstruje proces načítání textu z PDF pomocí rozhraní REST Node.js. Obdélníková oblast se skládá z levé spodní pozice x a y az pravé horní pozice x a y, ve které chcete načíst text. Pokud potřebujete načíst text z jedné stránky, použijte metodu GetPageText(), která vyžaduje číslo stránky jako další argument pro výběr stránky.

Tento článek nás naučil číst soubor PDF bez použití jakéhokoli softwaru pro čtení PDF nainstalovaného ve vašem systému. Pokud chcete spočítat počet slov v souboru PDF, přečtěte si článek na Počítejte slova v dokumentu PDF pomocí rozhraní Node.js REST API.

 Čeština