使用 Node.js REST API 从 PDF 文档中提取文本

本简短教程讲解如何使用 Node.js REST API 从 PDF 文档中提取文本。您将学习如何使用基于 Node.js 的 Cloud SDK,使用基于 Node.js 的 API 从 PDF 中提取文本。教程通过分享读取和显示 PDF 文本的示例代码,演示了完整的提取流程。

先决条件

使用 Node.js Low Code API 提取 PDF 文本的步骤

  1. 通过提供应用程序密钥和 SID 来配置 PdfApi 以读取 PDF 文件
  2. 上传源 PDF 文件以提取文本
  3. 成功上传源 PDF 文件后调用 获取文本() 方法
  4. 设置页面的矩形区域,从该区域获取所有页面上的文本
  5. 解析 API 响应中出现的所有文本并显示文本

这些步骤涉及使用 Node.js RESTful 服务读取 PDF 文本的过程。将 PDF 文件加载到云存储中,并调用 GetText() 方法从加载的 PDF 文件的所有页面中,从页面的指定矩形区域获取所有出现的文本。在响应中遍历所有出现的文本,并显示页码和文本。

使用 Node.js REST 接口从 PDF 中抓取文本的代码

此代码演示了使用 Node.js REST 接口从 PDF 中检索文本的过程。矩形区域由左下角的 x 和 y 坐标以及右上角的 x 和 y 坐标组成,您需要在该区域内获取文本。如果您需要从单个页面获取文本,请使用 GetPageText() 方法,该方法需要页码作为附加参数来选择页面。

本文教我们如何在不使用系统上安装的任何 PDF 阅读软件的情况下阅读 PDF 文件。如果您想统计 PDF 文件中的字数,请参阅 使用 Node.js REST API 统计 PDF 文档中的字数 上的文章。

 简体中文