Node.js REST API を使用して PDF ドキュメントからテキストを抽出する

この短いチュートリアルでは、Node.js REST API を使用して PDF ドキュメントからテキストを抽出する方法 を説明します。Node.js ベースの Cloud SDK を使用して、Node.js ベースの API を使用して PDF からテキストを抽出する方法 を学習します。PDF テキストの読み取りと表示を行うサンプルコードを共有することで、プロセス全体を実演します。

前提条件

Node.js Low Code API で PDF テキストを抽出する手順

  1. PDFファイルを読み取るためのアプリケーションキーとSIDを指定してPdfApiを設定します
  2. テキストを抽出するためのソースPDFファイルをアップロードします
  3. ソースPDFファイルのアップロードが成功したらGetText()メソッドを呼び出します。
  4. すべてのページでテキストを取得するページの長方形領域を設定します
  5. APIレスポンス内のテキストの出現箇所をすべて解析し、テキストを表示します。

これらの手順は、Node.js RESTful サービスで PDF テキストを読み取る プロセスです。PDF ファイルをクラウドストレージに読み込み、GetText() メソッドを呼び出して、読み込んだ PDF ファイルの全ページから、ページ上の指定された矩形領域にあるテキストの出現箇所をすべて取得します。レスポンスですべての出現箇所を Praise し、ページ番号とテキストを表示します。

Node.js RESTインターフェースを使ってPDFからテキストを取得するコード

このコードは、Node.js RESTインターフェースを使用してPDFからテキストを取得するプロセスを示しています。長方形の領域は、テキストを取得する左下のx座標とy座標、および右上のx座標とy座標で構成されます。単一ページからテキストを取得する必要がある場合は、ページ番号を追加引数として指定するGetPageText()メソッドを使用してください。

この記事では、システムにインストールされているPDF閲覧ソフトウェアを使用せずにPDFファイルを読む方法を説明しました。PDFファイル内の単語数をカウントしたい場合は、Node.js REST API を使用して PDF ドキュメント内の単語数をカウントするの記事をご覧ください。

 日本語