Extrahieren Sie Text aus einem PDF-Dokument mit der Java REST API

Dieses kurze Tutorial erklärt, wie Sie Text aus einem PDF-Dokument mit der Java REST API extrahieren. Sie lernen, Text aus PDF-Dateien mit einer Java-basierten API mithilfe eines Java-basierten Cloud SDK zu extrahieren. Es demonstriert den gesamten Prozess anhand eines Beispielcodes zum Lesen und Anzeigen des PDF-Textes.

Voraussetzung

Schritte zum Extrahieren von PDF-Text mit der Java Low Code API

  1. Konfigurieren Sie die PdfApi, indem Sie den Anwendungsschlüssel und die SID zum Lesen der PDF-Datei angeben
  2. Laden Sie die PDF-Quelldatei hoch, um den Text zu extrahieren
  3. Rufen Sie die Methode GetText() nach dem erfolgreichen Hochladen der PDF-Quelldatei auf
  4. Legen Sie den rechteckigen Bereich der Seite fest, aus dem der Text auf allen Seiten abgerufen werden soll
  5. Analysieren Sie alle Vorkommen des Textes in der API-Antwort und zeigen Sie den Text an

Diese Schritte beinhalten den Prozess zum Lesen von PDF-Text mit Java RESTful Service. Laden Sie die PDF-Datei in den Cloud-Speicher und rufen Sie die Methode GetText() auf, um alle Vorkommen des Textes von allen Seiten der geladenen PDF-Datei aus dem angegebenen Rechteck auf der Seite abzurufen. Überprüfen Sie alle Vorkommen in der Antwort und zeigen Sie Seitenzahl und Text an.

Code zum Abrufen von Text aus PDF mit der Java REST-Schnittstelle

Dieser Code demonstriert den Vorgang zum Abrufen von Text aus PDF-Dateien mit der Java REST-Schnittstelle. Der rechteckige Bereich besteht aus der unteren linken x- und y-Position und der oberen rechten x- und y-Position, innerhalb derer Sie den Text abrufen möchten. Wenn Sie Text von einer einzelnen Seite abrufen möchten, verwenden Sie die Methode GetPageText(), die eine Seitenzahl als zusätzliches Argument zur Auswahl der Seite benötigt.

In diesem Artikel erfahren Sie, wie Sie PDF-Dateien lesen, ohne eine auf Ihrem System installierte PDF-Lesesoftware zu verwenden. Wenn Sie die Anzahl der Wörter in einer PDF-Datei zählen möchten, lesen Sie den Artikel zu Zählen Sie Wörter in PDF-Dokumenten mit der Java REST API.

 Deutsch