Тази статия ръководи как да извлечете текст от документ Word с Python REST API. Ще се научите автоматично да извличате текст от Word файл с Python Low Code API, като дефинирате началото и края на текста, който искате да извлечете от заредения Word файл. Можете да зададете параметрите на диапазона по различни начини, описани в тази статия.
Предпоставка
- Създайте акаунт и получете идентификационни данни за API
- Изтеглете Aspose.Words Cloud SDK за Python, за да извлечете набор от текст от файл на Word
- Настройте проект за решение на Python с горния SDK за запазване на диапазон в низ
Стъпки за извличане на конкретен текст от Word документ с Python REST API
- Създайте обект от клас WordsApi, за да извлечете диапазон от текст от файл на Word
- Създайте екземпляр на обекта GetRangeTextOnlineRequest и заредете съдържанието на входния файл на Word в него
- Задайте параметрите на диапазона в обекта на заявката, за да определите началото и края на текстовия диапазон
- Извикайте метода GetRangeTextOnline, за да извлечете диапазона от текст
- Показване на текста от отговора, върнат от извикването на API
Горните стъпки описват процеса за извличане на текст от DOC с Python Low Code API. Започнете процеса, като създадете обекта на клас WordsApi, като използвате ИД на клиента и тайната, и инициирайте обекта на заявката, като използвате класа GetRangeTextOnlineRequest. Попълнете параметрите, за да дефинирате диапазона от текст, и го използвайте, докато извиквате метода GetRangeTextOnline(), който извлича данни от изходния файл.
Код за извличане на текст от DOCX с Python REST API
Този код демонстрира как да извлечете текст от документ на Word с Python REST API. GetRangeTextOnlineRequest съдържа параметрите RangeStartIdentifier и RangeEndIdentifier, които могат да се използват за задаване на диапазон от текст, който искате да извлечете и запишете в низова променлива. Използвайте идентификатори на диапазон, като page3 показва номер на страница 3, page3:end показва края на страница 3 и document:end показва края на документа.
Тази статия ни научи как да дефинираме диапазон от текст на страниците и да го запазим в низова променлива. За да запазите страница във файл на Word в изображение, вижте следната статия: Преобразувайте Word страница в изображение с Python REST API.