Questo articolo spiega come estrarre testo da un documento Word con l’API REST di Python. Imparerai a estrarre automaticamente testo da un file Word con l’API Python Low Code definendo l’inizio e la fine del testo che desideri estrarre dal file Word caricato. Puoi impostare i parametri di intervallo nei vari modi descritti in questo articolo.
Prerequisito
- Crea un account e ottieni le credenziali API
- Scarica Aspose.Words Cloud SDK per Python per estrarre un intervallo di testo da un file Word
- Imposta il progetto di soluzione Python con l’SDK sopra indicato per salvare un intervallo in una stringa
Passaggi per estrarre testo specifico da un documento Word con Python REST API
- Crea l’oggetto classe WordsApi per estrarre un intervallo di testo da un file Word
- Crea un’istanza dell’oggetto GetRangeTextOnlineRequest e carica il contenuto del file Word di input al suo interno
- Imposta i parametri di intervallo nell’oggetto di richiesta per definire l’inizio e la fine dell’intervallo di testo
- Chiama il metodo Ottieni intervallo testo online per estrarre l’intervallo di testo
- Visualizza il testo della risposta restituita dalla chiamata API
I passaggi precedenti descrivono il processo per estrarre testo da DOC con l’API Python Low Code. Iniziare il processo creando l’oggetto classe WordsApi utilizzando l’ID client e il segreto, quindi avviare l’oggetto richiesta utilizzando la classe GetRangeTextOnlineRequest. Inserire i parametri per definire l’intervallo di testo e utilizzarlo durante la chiamata al metodo GetRangeTextOnline() che recupera i dati dal file sorgente.
Codice per estrarre testo da DOCX con Python REST API
Questo codice mostra come estrarre testo da un documento Word con l’API REST di Python. La richiesta GetRangeTextOnlineRequest contiene i parametri RangeStartIdentifier e RangeEndIdentifier, che possono essere utilizzati per impostare l’intervallo di testo che si desidera recuperare e salvare in una variabile stringa. Utilizzare identificatori di intervallo come page3 per visualizzare la pagina numero 3, page3:end per visualizzare la fine della pagina 3 e document:end per visualizzare la fine del documento.
Questo articolo ci ha insegnato come definire un intervallo di testo tra le pagine e salvarlo in una variabile stringa. Per salvare una pagina di un file Word in un’immagine, fare riferimento al seguente articolo: Convertire una pagina Word in un’immagine con l’API REST di Python.