この短いチュートリアルでは、Java REST APIを使用してPDFドキュメントからテキストを抽出する方法を説明します。JavaベースのCloud SDKを使用して、JavaベースのAPIを使用してPDFからテキストを抽出する方法を学習します。PDFテキストの読み取りと表示を行うサンプルコードを共有することで、プロセス全体を実演します。

前提条件

アカウントAPI認証情報を作成する PDFからテキストを抽出
PDFファイルを読むにはDotjava 用 Aspose.PDF Cloud SDKをダウンロードしてください
テキストを取得するための上記のSDKを使用してJavaプロジェクトをセットアップします

Java Low Code API で PDF テキストを抽出する手順

PDFファイルを読み取るためのアプリケーションキーとSIDを指定してPdfApiを設定します
テキストを抽出するためのソースPDFファイルをアップロードします
ソースPDFファイルのアップロードが成功したらGetText()メソッドを呼び出します。
すべてのページでテキストを取得するページの長方形領域を設定します
APIレスポンス内のテキストの出現箇所をすべて解析し、テキストを表示します。

これらの手順は、Java RESTful サービスで PDF テキストを読み取る プロセスです。PDF ファイルをクラウドストレージに読み込み、GetText() メソッドを呼び出して、読み込んだ PDF ファイルの全ページから、ページ上の指定された矩形領域にあるテキストの出現箇所をすべて取得します。レスポンスですべての出現箇所を Praise し、ページ番号とテキストを表示します。

Java REST インターフェースを使用して PDF からテキストを取得するコード

このコードは、Java RESTインターフェースを使用してPDFからテキストを取得するプロセスを示しています。長方形の領域は、テキストを取得する左下のx座標とy座標、および右上のx座標とy座標で構成されます。単一ページからテキストを取得する必要がある場合は、ページ番号を追加引数として指定してページを選択するGetPageText()メソッドを使用してください。

この記事では、システムにインストールされているPDF閲覧ソフトウェアを使用せずにPDFファイルを読む方法を説明しました。PDFファイル内の単語数をカウントしたい場合は、Java REST API を使用して PDF ドキュメント内の単語数をカウントするの記事をご覧ください。

Aspose.cloud 知識ベース

APIで回答を見つけます

Java REST API を使用して PDF ドキュメントからテキストを抽出する

Java Low Code API で PDF テキストを抽出する手順

Java REST インターフェースを使用して PDF からテキストを取得するコード