使用 C# REST API 从 PDF 文档中提取文本

本简短教程介绍如何使用 C# REST API 从 PDF 文档中提取文本。您将学习使用基于 .NET 的 Cloud SDK 使用基于 C# .NET 的 API 从 PDF 中提取文本。它通过共享用于读取和显示 PDF 文本的示例代码来演示完整的过程。

先决条件

使用 C# Low Code API 提取 PDF 文本的步骤

  1. 通过提供应用程序密钥和 SID 来配置 PdfApi 以读取 PDF 文件
  2. 上传用于提取文本的源 PDF 文件
  3. 成功上传源 PDF 文件后调用 GetText() 方法
  4. 设置要从中获取所有页面上的文本的矩形区域
  5. 解析 API 响应中出现的所有文本并显示文本

这些步骤涉及使用 C# RESTful 服务读取 PDF 文本的过程。将 PDF 文件加载到云存储中,然后调用 GetText() 方法从页面上指定的矩形区域中提取已加载 PDF 文件的所有页面中出现的文本。在响应中浏览所有出现的文本并显示页码和文本。

使用 C# REST 接口从 PDF 中抓取文本的代码

此代码演示了使用 C# REST 接口从 PDF 中检索文本的过程。矩形区域由您要在其中获取文本的左下角 x 和 y 位置以及右上角 x 和 y 位置组成。如果您需要从单个页面获取文本,请使用 GetPageText() 方法,该方法需要页码作为附加参数来选择页面。

本文教我们如何在不使用系统上安装的任何 PDF 阅读软件的情况下阅读 PDF 文件。如果您想计算 PDF 文件中的字数,请参阅 使用 C# REST API 统计 PDF 文档中的字数 上的文章。

 简体中文