Python REST API を使用して Word 文書からテキストを抽出する

この記事では、Python REST API を使用して Word ドキュメントからテキストを抽出する方法 を説明します。読み込んだWordファイルから取得したいテキストの開始と終了を定義することで、Python Low Code API を使用してWordファイルからテキストを自動的に抽出する 方法を学びます。範囲パラメータは、この記事で説明するさまざまな方法で設定できます。

前提条件

  • {{ハイパーリンク1}}
  • Word ファイルからテキストの範囲を抽出するには Python 用 Aspose.Words Cloud SDK をダウンロードしてください
  • 上記のSDKを使用して範囲を文字列に保存するためのPythonソリューションプロジェクトをセットアップします

Python REST APIを使用してWord文書から特定のテキストを抽出する手順

  1. WordsApiクラスオブジェクトを作成して、Wordファイルからテキストの範囲を抽出します。
  2. GetRangeTextOnlineRequestオブジェクトをインスタンス化し、そこに入力Wordファイルのコンテンツをロードします。
  3. リクエストオブジェクトの範囲パラメータを設定して、テキスト範囲の開始と終了を定義します。
  4. GetRangeTextOnlineメソッドを呼び出してテキストの範囲を抽出します
  5. API呼び出しによって返された応答のテキストを表示する

上記の手順は、Python Low Code APIを使用してDOCからテキストを抽出するプロセスを説明しています。プロセスを開始するには、クライアントIDとシークレットを使用してWordsApiクラスのオブジェクトを作成し、GetRangeTextOnlineRequestクラスを使用してリクエストオブジェクトを初期化します。テキストの範囲を定義するパラメータを入力し、ソースファイルからデータを取得するGetRangeTextOnline()メソッドを呼び出す際に使用します。

Python REST API を使用して DOCX からテキストを抽出するコード

このコードは、Python REST APIを使ってWord文書からテキストを抽出する方法を示しています。GetRangeTextOnlineRequestには、取得して文字列変数に保存するテキストの範囲を指定するためのパラメータRangeStartIdentifierとRangeEndIdentifierが含まれています。範囲識別子として、page3はページ番号3、page3:endはページ3の末尾、document:endは文書の末尾を示します。

この記事では、ページ全体にわたるテキスト範囲を定義し、それを文字列変数に保存する方法を説明しました。Wordファイル内のページを画像として保存するには、次の記事をご覧ください: Python REST API を使って Word ページを画像に変換する

 日本語