C# REST API を使用して PDF ドキュメントからテキストを抽出する

この短いチュートリアルでは、C# REST API を使用して PDF ドキュメントからテキストを抽出する 方法について説明します。.NET ベースの Cloud SDK を使用して、C# .NET ベースの API を使用して PDF からテキストを抽出する 方法を学習します。PDF テキストを読み取って表示するためのサンプル コードを共有することで、完全なプロセスを示します。

前提条件

C# ローコード API を使用して PDF テキストを抽出する手順

  1. PDFファイルを読み取るためのアプリケーションキーとSIDを指定してPdfApiを設定します
  2. テキストを抽出するためのソースPDFファイルをアップロードします
  3. ソースPDFファイルのアップロードが成功したらGetText()メソッドを呼び出します。
  4. すべてのページでテキストを取得するページの長方形領域を設定します
  5. APIレスポンス内のテキストの出現箇所をすべて解析し、テキストを表示します。

これらの手順には、C# RESTful サービスを使用して PDF テキストを読み取るプロセスが含まれます。PDF ファイルをクラウド ストレージに読み込み、GetText() メソッドを呼び出して、読み込まれた PDF ファイル内のすべてのページから、ページ上の指定された四角形にあるテキストのすべての出現箇所を取得します。応答ですべての出現箇所を評価し、ページ番号とテキストを表示します。

C# REST インターフェイスを使用して PDF からテキストを取得するコード

このコードは、C# REST インターフェイスを使用して PDF からテキストを取得するプロセスを示しています。長方形の領域は、テキストを取得する左下の x 位置と y 位置、および右上の x 位置と y 位置で構成されます。1 ページからテキストを取得する必要がある場合は、ページを選択するための追加引数としてページ番号を必要とする GetPageText() メソッドを使用します。

この記事では、システムにインストールされている PDF 読み取りソフトウェアを使用せずに PDF ファイルを読み取る方法を説明しました。PDF ファイル内の単語数をカウントしたい場合は、C# REST API を使用して PDF ドキュメント内の単語数をカウントする の記事を参照してください。

 日本語