Trích xuất văn bản từ tài liệu Word bằng Python REST API

Bài viết này hướng dẫn cách trích xuất văn bản từ tài liệu Word bằng Python REST API. Bạn sẽ học cách tự động trích xuất văn bản từ tệp Word bằng Python Low Code API bằng cách xác định điểm bắt đầu và kết thúc của văn bản bạn muốn lấy từ tệp Word đã tải. Bạn có thể thiết lập các tham số phạm vi theo nhiều cách khác nhau được mô tả trong bài viết này.

Điều kiện tiên quyết

  • {{Siêu liên kết1}}
  • Tải xuống Aspose.Words Cloud SDK dành cho Python để trích xuất một dải văn bản từ tệp Word
  • Thiết lập dự án giải pháp Python với SDK ở trên để lưu phạm vi vào chuỗi

Các bước trích xuất văn bản cụ thể từ tài liệu Word bằng Python REST API

  1. Tạo đối tượng lớp WordsApi để trích xuất một phạm vi văn bản từ tệp Word
  2. Khởi tạo đối tượng GetRangeTextOnlineRequest và tải nội dung tệp Word đầu vào vào đó
  3. Đặt các tham số phạm vi trong đối tượng yêu cầu để xác định điểm bắt đầu và kết thúc của phạm vi văn bản
  4. Gọi phương thức GetRangeTextOnline để trích xuất phạm vi văn bản
  5. Hiển thị văn bản từ phản hồi được trả về bởi lệnh gọi API

Các bước trên mô tả quy trình trích xuất văn bản từ DOC bằng Python Low Code API. Bắt đầu quy trình bằng cách tạo đối tượng lớp WordsApi sử dụng ID và bí mật của máy khách, và khởi tạo đối tượng yêu cầu bằng lớp GetRangeTextOnlineRequest. Điền các tham số để xác định phạm vi văn bản và sử dụng nó khi gọi phương thức GetRangeTextOnline() để lấy dữ liệu từ tệp nguồn.

Mã để trích xuất văn bản từ DOCX bằng Python REST API

Mã này minh họa cách trích xuất văn bản từ tài liệu Word bằng Python REST API. GetRangeTextOnlineRequest chứa các tham số RangeStartIdentifier và RangeEndIdentifier có thể được sử dụng để thiết lập phạm vi văn bản bạn muốn lấy và lưu vào một biến chuỗi. Sử dụng các định danh phạm vi như page3 hiển thị số trang 3, page3:end hiển thị kết thúc của trang 3 và document:end hiển thị kết thúc của tài liệu.

Bài viết này hướng dẫn chúng ta cách xác định phạm vi văn bản trên các trang và lưu nó vào một biến chuỗi. Để lưu một trang trong tệp Word thành hình ảnh, hãy tham khảo bài viết sau: Chuyển đổi trang Word thành hình ảnh bằng Python REST API.

 Tiếng Việt