Extraer texto de un documento de Word con la API REST de Python

Este artículo explica cómo extraer texto de un documento Word con la API REST de Python. Aprenderá a extraer texto automáticamente de un archivo de Word con la API de Python Low Code, definiendo el inicio y el final del texto que desea obtener del archivo de Word cargado. Puede configurar los parámetros de rango de varias maneras, como se describe en este artículo.

Requisito previo

  • {{HIPERVÍNCULO1}}
  • Descargue SDK de Aspose.Words Cloud para Python para extraer un rango de texto de un archivo de Word
  • Configurar el proyecto de solución de Python con el SDK anterior para guardar un rango en una cadena

Pasos para extraer texto específico de un documento de Word con la API REST de Python

  1. Cree el objeto de clase WordsApi para extraer un rango de texto de un archivo de Word
  2. Cree una instancia del objeto GetRangeTextOnlineRequest y cargue en él el contenido del archivo Word de entrada
  3. Establezca los parámetros de rango en el objeto de solicitud para definir el inicio y el final del rango de texto
  4. Llame al método ObtenerTextoDeRangoEnLínea para extraer el rango de texto
  5. Mostrar el texto de la respuesta devuelta por la llamada API

Los pasos anteriores describen el proceso para extraer texto de un documento con la API de Python Low Code. Comience el proceso creando el objeto de la clase WordsApi con el ID y el secreto del cliente, e inicie el objeto de solicitud con la clase GetRangeTextOnlineRequest. Complete los parámetros para definir el rango de texto y úselo al llamar al método GetRangeTextOnline(), que obtiene datos del archivo fuente.

Código para extraer texto de DOCX con la API REST de Python

Este código demuestra cómo extraer texto de un documento de Word con la API REST de Python. GetRangeTextOnlineRequest contiene los parámetros RangeStartIdentifier y RangeEndIdentifier, que permiten establecer el rango de texto que se desea recuperar y guardar en una variable de cadena. Utilice identificadores de rango como page3 para mostrar la página número 3, page3:end para mostrar el final de la página 3 y document:end para mostrar el final del documento.

Este artículo nos enseñó a definir un rango de texto en las páginas y guardarlo en una variable de cadena. Para guardar una página de un archivo de Word como imagen, consulte el siguiente artículo: Convertir una página de Word en una imagen con la API REST de Python.

 Español