Este breve tutorial explica como extrair texto do documento PDF com a API REST Java. Você aprenderá a extrair texto de um PDF com uma API baseada em Java usando um Cloud SDK baseado em Java. Ele demonstra o processo completo compartilhando um código de exemplo para ler e exibir o texto do PDF.
Pré-requisito
- Criar uma conta Credenciais de API extrair texto do PDF
- Baixe Aspose.PDF Cloud SDK para Dotjava para ler um arquivo PDF
- Configure o projeto Java com o SDK acima para buscar texto
Etapas para extrair texto em PDF com a API Java Low Code
- Configure o PdfApi fornecendo a chave do aplicativo e o SID para ler o arquivo PDF
- Carregue o arquivo PDF de origem para extrair o texto
- Chame o método ObterTexto() após o upload bem-sucedido do arquivo PDF de origem
- Defina a área retangular da página da qual o texto deve ser obtido em todas as páginas
- Analisar todas as ocorrências do texto na resposta da API e exibir o texto
Estas etapas envolvem o processo de ler texto em PDF com o serviço Java RESTful. Carregue o arquivo PDF no armazenamento em nuvem e chame o método GetText() para buscar todas as ocorrências do texto de todas as páginas do arquivo PDF carregado a partir do retângulo especificado na página. Percorra todas as ocorrências na resposta e exiba o número da página e o texto.
Código para obter texto de PDF com interface Java REST
Este código demonstra o processo para recuperar texto de um PDF com a interface Java REST. A área retangular consiste nas posições x e y inferiores esquerdas e nas posições x e y superiores direitas, dentro das quais você deseja buscar o texto. Se precisar buscar texto de uma única página, use o método GetPageText(), que requer um número de página como argumento adicional para selecionar a página.
Este artigo nos ensinou a ler um arquivo PDF sem usar nenhum software de leitura de PDF instalado no seu sistema. Se quiser contar o número de palavras em um arquivo PDF, consulte o artigo em Contar palavras em documentos PDF com Java REST API.