Wyodrębnij tekst z dokumentu Word za pomocą interfejsu API REST języka Python

W tym artykule dowiesz się, jak wyodrębnić tekst z dokumentu Word za pomocą interfejsu API REST Pythona. Nauczysz się automatycznie wyodrębniać tekst z pliku Word za pomocą interfejsu API Low Code Pythona, definiując początek i koniec tekstu, który chcesz pobrać z załadowanego pliku Worda. Parametry zakresu można ustawić na różne sposoby opisane w tym artykule.

Warunek wstępny

  • {{HIPERLINK1}}
  • Pobierz Aspose.Words Cloud SDK dla Pythona, aby wyodrębnić zakres tekstu z pliku Word
  • Skonfiguruj projekt rozwiązania Python przy użyciu powyższego zestawu SDK w celu zapisania zakresu do ciągu

Kroki wyodrębniania określonego tekstu z dokumentu Word za pomocą interfejsu API REST języka Python

  1. Utwórz obiekt klasy WordsApi, aby wyodrębnić zakres tekstu z pliku Word
  2. Utwórz obiekt GetRangeTextOnlineRequest i załaduj do niego zawartość pliku Word
  3. Ustaw parametry zakresu w obiekcie żądania, aby zdefiniować początek i koniec zakresu tekstu
  4. Wywołaj metodę GetRangeTextOnline, aby wyodrębnić zakres tekstu
  5. Wyświetl tekst z odpowiedzi zwróconej przez wywołanie API

Powyższe kroki opisują proces wyodrębniania tekstu z DOC za pomocą Python Low Code API. Rozpocznij proces, tworząc obiekt klasy WordsApi przy użyciu identyfikatora klienta i klucza tajnego, a następnie zainicjuj obiekt żądania za pomocą klasy GetRangeTextOnlineRequest. Wypełnij parametry, aby zdefiniować zakres tekstu i użyj go podczas wywoływania metody GetRangeTextOnline(), która pobiera dane z pliku źródłowego.

Kod do wyodrębniania tekstu z DOCX za pomocą interfejsu API REST języka Python

Ten kod demonstruje jak wyodrębnić tekst z dokumentu Word za pomocą interfejsu REST API Pythona. Żądanie GetRangeTextOnlineRequest zawiera parametry RangeStartIdentifier i RangeEndIdentifier, za pomocą których można ustawić zakres tekstu, który chcesz pobrać i zapisać w zmiennej łańcuchowej. Użyj identyfikatorów zakresu, takich jak page3 oznacza stronę numer 3, page3:end oznacza koniec strony 3, a document:end oznacza koniec dokumentu.

W tym artykule nauczyliśmy się, jak zdefiniować zakres tekstu na stronach i zapisać go w zmiennej ciągu. Aby zapisać stronę w pliku Word jako obraz, zapoznaj się z następującym artykułem: Konwersja strony Worda na obraz za pomocą interfejsu API REST Pythona.

 Polski