Extrahera text från Word-dokument med Python REST API

Den här artikeln vägleder hur du extraherar text från Word dokument med Python REST API. Du kommer att lära dig att automatiskt extrahera text från Word-fil med Python Low Code API genom att definiera början och slutet av texten du vill hämta från den laddade Word-filen. Du kan ställa in intervallparametrarna på olika sätt som beskrivs i den här artikeln.

Nödvändig förutsättning

Steg för att extrahera specifik text från Word-dokument med Python REST API

  1. Skapa klassobjektet WordsApi för att extrahera en rad text från en Word-fil
  2. Instantiera GetRangeTextOnlineRequest-objektet och ladda indata Word-filinnehåll i det
  3. Ställ in intervallparametrarna i begärandeobjektet för att definiera början och slutet av textintervallet
  4. Anropa metoden GetRangeTextOnline för att extrahera textintervallet
  5. Visa texten från svaret som returneras av API-anropet

Ovanstående steg beskriver processen för att extrahera text från DOC med Python Low Code API. Börja processen genom att skapa WordsApi-klassobjektet med klient-ID och hemlighet, och initiera förfrågningsobjektet med klassen GetRangeTextOnlineRequest. Fyll i parametrarna för att definiera textintervallet och använd det medan du anropar metoden GetRangeTextOnline() som hämtar data från källfilen.

Kod för att extrahera text från DOCX med Python REST API

Den här koden visar hur man extraherar text från Word-dokument med Python REST API. GetRangeTextOnlineRequest innehåller parametrarna RangeStartIdentifier och RangeEndIdentifier som kan användas för att ställa in intervallet för text som du vill hämta och spara i en strängvariabel. Använd intervallidentifierare som sida3 visar sidnummer 3, sida3:slut visar slutet av sida 3 och dokument:slut visar slutet av dokumentet.

Den här artikeln har lärt oss hur man definierar ett intervall av text över sidorna och sparar det i en strängvariabel. För att spara en sida i en Word-fil till en bild, se följande artikel: Konvertera Word-sida till bild med Python REST API.

 Svenska