Extraire du texte d'un document PDF avec l'API REST Java

Ce court tutoriel explique comment extraire du texte d’un document PDF avec l’API REST Java. Vous apprendrez à extraire du texte d’un PDF avec une API Java et un SDK Cloud Java. Il illustre le processus complet en partageant un exemple de code pour la lecture et l’affichage du texte PDF.

Condition préalable

Étapes pour extraire du texte PDF avec l’API Java Low Code

  1. Configurez le PdfApi en fournissant la clé d’application et le SID pour lire le fichier PDF
  2. Téléchargez le fichier PDF source pour extraire le texte
  3. Appelez la méthode Obtenir le texte() une fois le téléchargement du fichier PDF source réussi
  4. Définissez la zone rectangulaire de la page à partir de laquelle le texte doit être récupéré sur toutes les pages
  5. Analyser toutes les occurrences du texte dans la réponse de l’API et afficher le texte

Ces étapes décrivent le processus de lecture du texte PDF avec le service Java RESTful. Chargez le fichier PDF dans le stockage cloud et appelez la méthode GetText() pour récupérer toutes les occurrences du texte de toutes les pages du fichier PDF chargé, à partir du rectangle spécifié. Parcourez toutes les occurrences de la réponse et affichez le numéro et le texte de la page.

Code pour récupérer du texte à partir d’un PDF avec l’interface REST Java

Ce code illustre le processus de récupération de texte d’un PDF avec l’interface REST Java. La zone rectangulaire correspond aux axes x et y inférieur gauche et supérieur droit à l’intérieur desquels vous souhaitez récupérer le texte. Pour récupérer le texte d’une seule page, utilisez la méthode GetPageText() qui requiert un numéro de page comme argument supplémentaire pour sélectionner la page.

Cet article nous a appris à lire un fichier PDF sans utiliser de logiciel de lecture installé sur votre système. Pour compter le nombre de mots d’un fichier PDF, consultez l’article sur Compter les mots dans un document PDF avec l’API REST Java.

 Français