Extraer texto de un documento PDF con la API REST de C#

Este breve tutorial explica cómo extraer texto de un documento PDF con la API REST de C#. Aprenderá a extraer texto de un PDF con la API basada en .NET de C# utilizando un SDK de la nube basado en .NET. Demuestra el proceso completo compartiendo un código de muestra para leer y mostrar el texto del PDF.

Requisito previo

Pasos para extraer texto PDF con la API Low Code de C#

  1. Configure PdfApi proporcionando la clave de aplicación y el SID para leer el archivo PDF
  2. Sube el archivo PDF de origen para extraer el texto
  3. Llame al método GetText() después de cargar correctamente el archivo PDF de origen
  4. Establezca el área rectangular de la página desde la que se obtendrá el texto en todas las páginas.
  5. Analizar todas las ocurrencias del texto en la respuesta de la API y mostrar el texto

Estos pasos implican el proceso de leer texto PDF con el servicio RESTful de C#. Cargue el archivo PDF en el almacenamiento en la nube y llame al método GetText() para recuperar todas las apariciones del texto de todas las páginas del archivo PDF cargado desde el rectángulo especificado en la página. Elogie todas las apariciones en la respuesta y muestre el número de página y el texto.

Código para extraer texto de un PDF con la interfaz REST de C#

Este código demuestra el proceso para recuperar texto de un PDF con la interfaz REST de C#. El área rectangular consta de la posición x e y inferior izquierda y la posición x e y superior derecha dentro de la cual desea obtener el texto. Si necesita obtener texto de una sola página, utilice el método GetPageText() que requiere un número de página como argumento adicional para seleccionar la página.

Este artículo nos ha enseñado a leer archivos PDF sin necesidad de utilizar ningún software de lectura de PDF instalado en el sistema. Si desea contar la cantidad de palabras de un archivo PDF, consulte el artículo sobre Contar palabras en un documento PDF con la API REST de C#.

 Español