Extraire du texte d'un document PDF avec l'API REST C#

Ce court tutoriel explique comment extraire du texte d’un document PDF avec l’API REST C#. Vous apprendrez à extraire du texte d’un PDF avec l’API basée sur C# .NET à l’aide d’un SDK Cloud basé sur .NET. Il illustre le processus complet en partageant un exemple de code pour la lecture et l’affichage du texte PDF.

Condition préalable

Étapes pour extraire du texte PDF avec l’API Low Code de C#

  1. Configurez le PdfApi en fournissant la clé d’application et le SID pour lire le fichier PDF
  2. Téléchargez le fichier PDF source pour extraire le texte
  3. Appelez la méthode GetText() une fois le téléchargement du fichier PDF source réussi
  4. Définissez la zone rectangulaire de la page à partir de laquelle le texte doit être récupéré sur toutes les pages
  5. Analyser toutes les occurrences du texte dans la réponse de l’API et afficher le texte

Ces étapes impliquent le processus de lecture du texte PDF avec le service RESTful C#. Chargez le fichier PDF dans le stockage Cloud et appelez la méthode GetText() pour récupérer toutes les occurrences du texte de toutes les pages du fichier PDF chargé à partir du rectangle spécifié sur la page. Parcourez toutes les occurrences de la réponse et affichez le numéro de page et le texte.

Code pour récupérer du texte à partir d’un PDF avec l’interface REST de C#

Ce code illustre le processus de récupération de texte à partir d’un PDF avec l’interface REST C#. La zone rectangulaire se compose de la position x et y en bas à gauche et de la position x et y en haut à droite dans laquelle vous souhaitez récupérer le texte. Si vous devez récupérer du texte à partir d’une seule page, utilisez la méthode GetPageText() qui nécessite un numéro de page comme argument supplémentaire pour sélectionner la page.

Cet article nous a appris à lire le fichier PDF sans utiliser aucun logiciel de lecture PDF installé sur votre système. Si vous souhaitez compter le nombre de mots dans un fichier PDF, reportez-vous à l’article sur Compter les mots dans un document PDF avec l’API REST C#.

 Français