Cet article explique comment extraire automatiquement du texte d’un document Word avec l’API REST Python. Vous apprendrez à extraire automatiquement du texte d’un fichier Word avec l’API Python Low Code en définissant le début et la fin du texte à extraire du fichier Word chargé. Vous pouvez définir les paramètres de plage de différentes manières, décrites dans cet article.
Condition préalable
- Créez un compte et obtenez les informations d’identification de l’API
- Téléchargez Aspose.Words Cloud SDK pour Python pour extraire une plage de texte d’un fichier Word
- Configurer un projet de solution Python avec le SDK ci-dessus pour enregistrer une plage dans une chaîne
Étapes pour extraire un texte spécifique d’un document Word avec l’API REST Python
- Créez l’objet de classe WordsApi pour extraire une plage de texte d’un fichier Word
- Instanciez l’objet GetRangeTextOnlineRequest et chargez-y le contenu du fichier Word d’entrée
- Définissez les paramètres de plage dans l’objet de requête pour définir le début et la fin de la plage de texte
- Appelez la méthode GetRangeTextOnline pour extraire la plage de texte
- Afficher le texte de la réponse renvoyée par l’appel d’API
Les étapes ci-dessus décrivent le processus d’extraction de texte d’un document DOC avec l’API Python Low Code. Commencez par créer l’objet de classe WordsApi à l’aide de l’ID client et du secret, puis lancez l’objet de requête avec la classe GetRangeTextOnlineRequest. Renseignez les paramètres pour définir la plage de texte et utilisez-la lors de l’appel de la méthode GetRangeTextOnline() qui récupère les données du fichier source.
Code pour extraire du texte d’un fichier DOCX avec l’API REST Python
Ce code montre comment extraire du texte d’un document Word avec l’API REST Python. La requête GetRangeTextOnlineRequest contient les paramètres RangeStartIdentifier et RangeEndIdentifier, qui permettent de définir la plage de texte à récupérer et à enregistrer dans une variable chaîne. Utilisez des identifiants de plage tels que page3 : page numéro 3, page3:end : fin de la page 3 et document:end : fin du document.
Cet article nous a appris à définir une plage de texte sur plusieurs pages et à l’enregistrer dans une variable de chaîne. Pour enregistrer une page d’un fichier Word au format image, consultez l’article suivant : Convertir une page Word en image avec l’API REST Python.