Dieser Artikel beschreibt, wie Sie Text aus einem Word-Dokument mit der Python REST API extrahieren. Sie lernen, wie Sie automatisch Text aus einer Word-Datei mit der Python Low Code API extrahieren, indem Sie Anfang und Ende des Textes definieren, den Sie aus der geladenen Word-Datei abrufen möchten. Sie können die Bereichsparameter auf verschiedene, in diesem Artikel beschriebene Arten festlegen.
Voraussetzung
- Erstellen Sie ein Konto und erhalten Sie API-Anmeldeinformationen
- Laden Sie Aspose.Words Cloud SDK für Python herunter, um einen Textbereich aus einer Word-Datei zu extrahieren
- Richten Sie ein Python-Lösungsprojekt mit dem oben genannten SDK ein, um einen Bereich in einer Zeichenfolge zu speichern
Schritte zum Extrahieren von bestimmtem Text aus einem Word-Dokument mit der Python REST API
- Erstellen Sie das Klassenobjekt WordsApi, um einen Textbereich aus einer Word-Datei zu extrahieren
- Instanziieren Sie das GetRangeTextOnlineRequest-Objekt und laden Sie den Inhalt der eingegebenen Word-Datei darin
- Legen Sie die Bereichsparameter im Anforderungsobjekt fest, um den Anfang und das Ende des Textbereichs zu definieren
- Rufen Sie die Methode GetRangeTextOnline auf, um den Textbereich zu extrahieren
- Zeigen Sie den Text aus der vom API-Aufruf zurückgegebenen Antwort an
Die obigen Schritte beschreiben den Prozess zum Extrahieren von Text aus DOC mit der Python Low Code API. Beginnen Sie den Prozess, indem Sie das Klassenobjekt WordsApi mit der Client-ID und dem Geheimnis erstellen und das Anforderungsobjekt mit der Klasse GetRangeTextOnlineRequest initiieren. Füllen Sie die Parameter aus, um den Textbereich zu definieren, und verwenden Sie ihn beim Aufruf der Methode GetRangeTextOnline(), die Daten aus der Quelldatei abruft.
Code zum Extrahieren von Text aus DOCX mit der Python REST API
Dieser Code demonstriert, wie man Text aus einem Word-Dokument mit der Python REST API extrahiert. Die GetRangeTextOnlineRequest enthält die Parameter RangeStartIdentifier und RangeEndIdentifier, mit denen der Textbereich festgelegt werden kann, der abgerufen und in einer Zeichenfolgenvariable gespeichert werden soll. Verwenden Sie Bereichskennungen wie page3 für Seite 3, page3:end für das Ende von Seite 3 und document:end für das Ende des Dokuments.
In diesem Artikel haben wir gelernt, wie man einen Textbereich über mehrere Seiten hinweg definiert und in einer Zeichenfolgenvariable speichert. Informationen zum Speichern einer Seite in einer Word-Datei als Bild finden Sie im folgenden Artikel: Konvertieren Sie eine Word-Seite mit der Python REST-API in ein Bild.