Java REST API を使用して PDF ドキュメントからテキストを抽出する

この短いチュートリアルでは、Java REST APIを使用してPDFドキュメントからテキストを抽出する方法を説明します。JavaベースのCloud SDKを使用して、JavaベースのAPIを使用してPDFからテキストを抽出する方法を学習します。PDFテキストの読み取りと表示を行うサンプルコードを共有することで、プロセス全体を実演します。

前提条件

Java Low Code API で PDF テキストを抽出する手順

  1. PDFファイルを読み取るためのアプリケーションキーとSIDを指定してPdfApiを設定します
  2. テキストを抽出するためのソースPDFファイルをアップロードします
  3. ソースPDFファイルのアップロードが成功したらGetText()メソッドを呼び出します。
  4. すべてのページでテキストを取得するページの長方形領域を設定します
  5. APIレスポンス内のテキストの出現箇所をすべて解析し、テキストを表示します。

これらの手順は、Java RESTful サービスで PDF テキストを読み取る プロセスです。PDF ファイルをクラウドストレージに読み込み、GetText() メソッドを呼び出して、読み込んだ PDF ファイルの全ページから、ページ上の指定された矩形領域にあるテキストの出現箇所をすべて取得します。レスポンスですべての出現箇所を Praise し、ページ番号とテキストを表示します。

Java REST インターフェースを使用して PDF からテキストを取得するコード

このコードは、Java RESTインターフェースを使用してPDFからテキストを取得するプロセスを示しています。長方形の領域は、テキストを取得する左下のx座標とy座標、および右上のx座標とy座標で構成されます。単一ページからテキストを取得する必要がある場合は、ページ番号を追加引数として指定してページを選択するGetPageText()メソッドを使用してください。

この記事では、システムにインストールされているPDF閲覧ソフトウェアを使用せずにPDFファイルを読む方法を説明しました。PDFファイル内の単語数をカウントしたい場合は、Java REST API を使用して PDF ドキュメント内の単語数をカウントするの記事をご覧ください。

 日本語