Extraire du texte d'un document PDF avec l'API REST Node.js

Ce court tutoriel explique comment extraire du texte d’un document PDF avec l’API REST Node.js. Vous apprendrez à extraire du texte d’un PDF avec l’API Node.js et un SDK Cloud basé sur Node.js. Il illustre le processus complet en partageant un exemple de code pour la lecture et l’affichage du texte PDF.

Condition préalable

Étapes pour extraire du texte PDF avec l’API Low Code de Node.js

  1. Configurez le PdfApi en fournissant la clé d’application et le SID pour lire le fichier PDF
  2. Téléchargez le fichier PDF source pour extraire le texte
  3. Appelez la méthode Obtenir le texte() une fois le téléchargement du fichier PDF source réussi
  4. Définissez la zone rectangulaire de la page à partir de laquelle le texte doit être récupéré sur toutes les pages
  5. Analyser toutes les occurrences du texte dans la réponse de l’API et afficher le texte

Ces étapes impliquent le processus de lecture du texte PDF avec le service RESTful Node.js. Chargez le fichier PDF dans le stockage cloud et appelez la méthode GetText() pour récupérer toutes les occurrences du texte de toutes les pages du fichier PDF chargé, à partir du rectangle spécifié. Parcourez toutes les occurrences de la réponse et affichez le numéro de page et le texte.

Code pour extraire du texte d’un PDF avec l’interface REST Node.js

Ce code illustre le processus de récupération de texte d’un PDF avec l’interface REST Node.js. La zone rectangulaire correspond aux axes x et y en bas à gauche et en haut à droite, à l’intérieur desquels vous souhaitez récupérer le texte. Si vous devez récupérer le texte d’une seule page, utilisez la méthode GetPageText() qui requiert un numéro de page comme argument supplémentaire pour sélectionner la page.

Cet article nous a appris à lire un fichier PDF sans utiliser de logiciel de lecture PDF installé sur votre système. Pour compter le nombre de mots d’un fichier PDF, consultez l’article sur Compter les mots dans un document PDF avec l’API REST Node.js.

 Français