本文将指导您如何使用 Python REST API 从 Word 文档中提取文本。您将学习如何使用 Python Low Code API 自动从 Word 文件中提取文本,只需定义要从已加载的 Word 文件中获取的文本的起始和结束位置即可。您可以使用本文介绍的各种方式设置范围参数。
先决条件
- 创建帐户并获取 API 凭证
- 下载 适用于 Python 的 Aspose.Words Cloud SDK 以从 Word 文件中提取一定范围的文本
- 使用上述 SDK 设置 Python 解决方案项目,用于将范围保存为字符串
使用 Python REST API 从 Word 文档中提取特定文本的步骤
- 创建 WordsApi 类对象以从 Word 文件中提取一定范围的文本
- 实例化GetRangeTextOnlineRequest对象,并在其中加载输入的Word文件内容
- 设置请求对象中的范围参数来定义文本范围的开始和结束
- 调用 在线获取范围文本 方法提取文本范围
- 显示 API 调用返回的响应文本
上述步骤描述了使用 Python Low Code API 从 DOC 中提取文本的过程。首先,使用客户端 ID 和密钥创建 WordsApi 类对象,然后使用 GetRangeTextOnlineRequest 类发起请求对象。填写参数以定义文本范围,并在调用 GetRangeTextOnline() 方法从源文件获取数据时使用。
使用 Python REST API 从 DOCX 中提取文本的代码
此代码演示了如何使用 Python REST API 从 Word 文档中提取文本。GetRangeTextOnlineRequest 包含 RangeStartIdentifier 和 RangeEndIdentifier 参数,可用于设置要提取并保存到字符串变量中的文本范围。请使用范围标识符,例如 page3 表示第 3 页,page3:end 表示第 3 页结束,document:end 表示文档结束。
本文教我们如何定义跨页面的文本范围并将其保存在字符串变量中。要将 Word 文件中的页面保存为图像,请参阅以下文章:使用 Python REST API 将 Word 页面转换为图像。