本简短教程讲解如何使用 Node.js REST API 从 PDF 文档中提取文本。您将学习如何使用基于 Node.js 的 Cloud SDK,使用基于 Node.js 的 API 从 PDF 中提取文本。教程通过分享读取和显示 PDF 文本的示例代码,演示了完整的提取流程。
先决条件
- 创建帐户 API 凭证 从 PDF 中提取文本
- 下载 适用于 Node.js 的 Aspose.PDF Cloud SDK 阅读 PDF 文件
- 使用上述 SDK 设置 Node.js 项目以获取文本
使用 Node.js Low Code API 提取 PDF 文本的步骤
- 通过提供应用程序密钥和 SID 来配置 PdfApi 以读取 PDF 文件
- 上传源 PDF 文件以提取文本
- 成功上传源 PDF 文件后调用 获取文本() 方法
- 设置页面的矩形区域,从该区域获取所有页面上的文本
- 解析 API 响应中出现的所有文本并显示文本
这些步骤涉及使用 Node.js RESTful 服务读取 PDF 文本的过程。将 PDF 文件加载到云存储中,并调用 GetText() 方法从加载的 PDF 文件的所有页面中,从页面的指定矩形区域获取所有出现的文本。在响应中遍历所有出现的文本,并显示页码和文本。
使用 Node.js REST 接口从 PDF 中抓取文本的代码
此代码演示了使用 Node.js REST 接口从 PDF 中检索文本的过程。矩形区域由左下角的 x 和 y 坐标以及右上角的 x 和 y 坐标组成,您需要在该区域内获取文本。如果您需要从单个页面获取文本,请使用 GetPageText() 方法,该方法需要页码作为附加参数来选择页面。
本文教我们如何在不使用系统上安装的任何 PDF 阅读软件的情况下阅读 PDF 文件。如果您想统计 PDF 文件中的字数,请参阅 使用 Node.js REST API 统计 PDF 文档中的字数 上的文章。