Este breve tutorial explica como extrair texto do documento PDF com a API REST do C#. Você aprenderá a extrair texto de PDF com a API baseada em C# .NET usando um Cloud SDK baseado em .NET. Ele demonstra o processo completo compartilhando um código de exemplo para ler e exibir o texto do PDF.
Pré-requisito
Criar uma conta Credenciais da API extrair texto do PDF
Download Aspose.PDF Cloud SDK for Dotnet to read a PDF file
Configure o projeto C# com o SDK acima para buscar texto
Etapas para extrair texto em PDF com API de baixo código C#
- Configure o PdfApi fornecendo a chave do aplicativo e o SID para ler o arquivo PDF
- Carregue o arquivo PDF de origem para extrair o texto
- Chame o método GetText() após o upload bem-sucedido do arquivo PDF de origem
- Defina a área retangular da página da qual o texto deve ser obtido em todas as páginas
- Analisar todas as ocorrências do texto na resposta da API e exibir o texto
Essas etapas envolvem o processo de ler texto em PDF com o C# RESTful Service. Carregue o arquivo PDF no armazenamento em nuvem e chame o método GetText() para buscar todas as ocorrências do texto de todas as páginas no arquivo PDF carregado do retângulo especificado na página. Elogie todas as ocorrências na resposta e exiba o número da página e o texto.
Código para obter texto de PDF com interface C# REST
using System; | |
using System.IO; | |
using Aspose.Pdf.Cloud.Sdk.Api; | |
using Aspose.Pdf.Cloud.Sdk.Model; | |
using System.Collections.Generic; | |
namespace Aspose.PDF.Cloud.Examples.Kb | |
{ | |
public class PdfTasks | |
{ | |
public static void ReadPdf() | |
{ | |
PdfApi pdfApi = new PdfApi("APP_KEY", "APP_SID"); | |
String fileName = "TextAndImages.pdf"; | |
try | |
{ | |
// Upload source file | |
FilesUploadResult result = pdfApi.UploadFile(fileName, new MemoryStream(File.ReadAllBytes(fileName))); | |
if (result.Errors.Count == 0) | |
{ | |
TextRectsResponse response = pdfApi.GetText(fileName, 0, 0, 500, 600); | |
foreach(var occurrence in response.TextOccurrences.List) | |
{ | |
Console.WriteLine($"Page:{occurrence.Page} Text:{occurrence.Text}"); | |
} | |
} | |
} | |
catch (Exception ex) | |
{ | |
Console.WriteLine("error:" + ex.Message + "\n" + ex.StackTrace); | |
} | |
} | |
} | |
} |
Este código demonstra o processo para recuperar texto de PDF com a interface C# REST. A área retangular consiste na posição x e y inferior esquerda e na posição x e y superior direita dentro da qual você deseja buscar o texto. Se você precisar buscar texto de uma única página, use o método GetPageText() que requer um número de página como um argumento adicional para selecionar a página.
Este artigo nos ensinou a ler o arquivo PDF sem usar nenhum software de leitura de PDF instalado no seu sistema. Se você quiser contar o número de palavras em um arquivo PDF, consulte o artigo em Contar palavras em documento PDF com C# REST API.