Extrair texto de documento PDF com API REST C#

Este breve tutorial explica como extrair texto do documento PDF com a API REST do C#. Você aprenderá a extrair texto de PDF com a API baseada em C# .NET usando um Cloud SDK baseado em .NET. Ele demonstra o processo completo compartilhando um código de exemplo para ler e exibir o texto do PDF.

Pré-requisito

Etapas para extrair texto em PDF com API de baixo código C#

  1. Configure o PdfApi fornecendo a chave do aplicativo e o SID para ler o arquivo PDF
  2. Carregue o arquivo PDF de origem para extrair o texto
  3. Chame o método GetText() após o upload bem-sucedido do arquivo PDF de origem
  4. Defina a área retangular da página da qual o texto deve ser obtido em todas as páginas
  5. Analisar todas as ocorrências do texto na resposta da API e exibir o texto

Essas etapas envolvem o processo de ler texto em PDF com o C# RESTful Service. Carregue o arquivo PDF no armazenamento em nuvem e chame o método GetText() para buscar todas as ocorrências do texto de todas as páginas no arquivo PDF carregado do retângulo especificado na página. Elogie todas as ocorrências na resposta e exiba o número da página e o texto.

Código para obter texto de PDF com interface C# REST

using System;
using System.IO;
using Aspose.Pdf.Cloud.Sdk.Api;
using Aspose.Pdf.Cloud.Sdk.Model;
using System.Collections.Generic;
namespace Aspose.PDF.Cloud.Examples.Kb
{
public class PdfTasks
{
public static void ReadPdf()
{
PdfApi pdfApi = new PdfApi("APP_KEY", "APP_SID");
String fileName = "TextAndImages.pdf";
try
{
// Upload source file
FilesUploadResult result = pdfApi.UploadFile(fileName, new MemoryStream(File.ReadAllBytes(fileName)));
if (result.Errors.Count == 0)
{
TextRectsResponse response = pdfApi.GetText(fileName, 0, 0, 500, 600);
foreach(var occurrence in response.TextOccurrences.List)
{
Console.WriteLine($"Page:{occurrence.Page} Text:{occurrence.Text}");
}
}
}
catch (Exception ex)
{
Console.WriteLine("error:" + ex.Message + "\n" + ex.StackTrace);
}
}
}
}

Este código demonstra o processo para recuperar texto de PDF com a interface C# REST. A área retangular consiste na posição x e y inferior esquerda e na posição x e y superior direita dentro da qual você deseja buscar o texto. Se você precisar buscar texto de uma única página, use o método GetPageText() que requer um número de página como um argumento adicional para selecionar a página.

Este artigo nos ensinou a ler o arquivo PDF sem usar nenhum software de leitura de PDF instalado no seu sistema. Se você quiser contar o número de palavras em um arquivo PDF, consulte o artigo em Contar palavras em documento PDF com C# REST API.

 Português