Trích xuất văn bản từ tài liệu PDF bằng C# REST API

Hướng dẫn ngắn này giải thích cách trích xuất văn bản từ tài liệu PDF bằng C# REST API. Bạn sẽ học cách trích xuất văn bản ra khỏi PDF bằng C# .NET-based API sử dụng Cloud SDK .NET-based. Nó chứng minh toàn bộ quy trình bằng cách chia sẻ một mã mẫu để đọc và hiển thị văn bản PDF.

Điều kiện tiên quyết

Các bước để trích xuất văn bản PDF bằng C# Low Code API

  1. Cấu hình PdfApi bằng cách cung cấp khóa ứng dụng và SID để đọc tệp PDF
  2. Tải lên tệp PDF nguồn để trích xuất văn bản
  3. Gọi phương thức GetText() sau khi tải lên thành công tệp PDF nguồn
  4. Đặt vùng hình chữ nhật của trang mà văn bản sẽ được lấy từ tất cả các trang
  5. Phân tích tất cả các lần xuất hiện của văn bản trong phản hồi API và hiển thị văn bản

Các bước này bao gồm quy trình đọc văn bản PDF bằng C# RESTful Service. Tải tệp PDF vào bộ nhớ đám mây và gọi phương thức GetText() để lấy tất cả các lần xuất hiện của văn bản từ tất cả các trang trong tệp PDF đã tải từ hình chữ nhật được chỉ định trên trang. Khen ngợi tất cả các lần xuất hiện trong phản hồi và hiển thị số trang và văn bản.

Mã để lấy văn bản từ PDF bằng giao diện C# REST

Mã này minh họa quy trình lấy văn bản từ PDF bằng Giao diện REST C#. Khu vực hình chữ nhật bao gồm vị trí x và y dưới cùng bên trái và vị trí x và y trên cùng bên phải mà bạn muốn lấy văn bản. Nếu bạn cần lấy văn bản từ một trang duy nhất, hãy sử dụng phương thức GetPageText() yêu cầu số trang làm đối số bổ sung để chọn trang.

Bài viết này hướng dẫn chúng ta cách đọc tệp PDF mà không cần sử dụng bất kỳ phần mềm đọc PDF nào được cài đặt trên hệ thống của bạn. Nếu bạn muốn đếm số từ trong tệp PDF, hãy tham khảo bài viết trên Đếm số từ trong tài liệu PDF bằng C# REST API.

 Tiếng Việt