使用 Python REST API 从 Word 文档中提取文本

本文将指导您如何使用 Python REST API 从 Word 文档中提取文本。您将学习如何使用 Python Low Code API 自动从 Word 文件中提取文本,只需定义要从已加载的 Word 文件中获取的文本的起始和结束位置即可。您可以使用本文介绍的各种方式设置范围参数。

先决条件

使用 Python REST API 从 Word 文档中提取特定文本的步骤

  1. 创建 WordsApi 类对象以从 Word 文件中提取一定范围的文本
  2. 实例化GetRangeTextOnlineRequest对象,并在其中加载输入的Word文件内容
  3. 设置请求对象中的范围参数来定义文本范围的开始和结束
  4. 调用 在线获取范围文本 方法提取文本范围
  5. 显示 API 调用返回的响应文本

上述步骤描述了使用 Python Low Code API 从 DOC 中提取文本的过程。首先,使用客户端 ID 和密钥创建 WordsApi 类对象,然后使用 GetRangeTextOnlineRequest 类发起请求对象。填写参数以定义文本范围,并在调用 GetRangeTextOnline() 方法从源文件获取数据时使用。

使用 Python REST API 从 DOCX 中提取文本的代码

此代码演示了如何使用 Python REST API 从 Word 文档中提取文本。GetRangeTextOnlineRequest 包含 RangeStartIdentifier 和 RangeEndIdentifier 参数,可用于设置要提取并保存到字符串变量中的文本范围。请使用范围标识符,例如 page3 表示第 3 页,page3:end 表示第 3 页结束,document:end 表示文档结束。

本文教我们如何定义跨页面的文本范围并将其保存在字符串变量中。要将 Word 文件中的页面保存为图像,请参阅以下文章:使用 Python REST API 将 Word 页面转换为图像

 简体中文