Hướng dẫn ngắn này giải thích cách trích xuất văn bản từ tài liệu PDF bằng Node.js REST API. Bạn sẽ học cách trích xuất văn bản từ PDF bằng API dựa trên Node.js bằng Cloud SDK dựa trên Node.js. Bài viết minh họa toàn bộ quy trình bằng cách chia sẻ một đoạn mã mẫu để đọc và hiển thị văn bản PDF.
Điều kiện tiên quyết
- Tạo tài khoản thông tin đăng nhập API trích xuất văn bản từ PDF
- Tải xuống SDK đám mây Aspose.PDF cho Node.js để đọc tệp PDF
- Thiết lập dự án Node.js với SDK ở trên để lấy văn bản
Các bước trích xuất văn bản PDF bằng Node.js Low Code API
- Cấu hình PdfApi bằng cách cung cấp khóa ứng dụng và SID để đọc tệp PDF
- Tải lên tệp PDF nguồn để trích xuất văn bản
- Gọi phương thức Lấy văn bản() sau khi tải lên thành công tệp PDF nguồn
- Đặt vùng hình chữ nhật của trang mà văn bản sẽ được lấy từ tất cả các trang
- Phân tích tất cả các lần xuất hiện của văn bản trong phản hồi API và hiển thị văn bản
Các bước này bao gồm quy trình đọc văn bản PDF bằng Dịch vụ RESTful Node.js. Tải tệp PDF vào bộ nhớ đám mây và gọi phương thức GetText() để lấy tất cả các lần xuất hiện của văn bản từ tất cả các trang trong tệp PDF đã tải từ hình chữ nhật được chỉ định trên trang. Duyệt qua tất cả các lần xuất hiện trong phản hồi và hiển thị số trang và văn bản.
Mã để lấy văn bản từ PDF bằng giao diện REST của Node.js
Mã này minh họa quy trình lấy văn bản từ PDF bằng Giao diện REST của Node.js. Vùng hình chữ nhật bao gồm vị trí x và y phía dưới bên trái và vị trí x và y phía trên bên phải mà bạn muốn lấy văn bản. Nếu bạn cần lấy văn bản từ một trang duy nhất, hãy sử dụng phương thức GetPageText() yêu cầu số trang làm đối số bổ sung để chọn trang.
Bài viết này hướng dẫn chúng ta cách đọc tệp PDF mà không cần sử dụng bất kỳ phần mềm đọc PDF nào được cài đặt trên hệ thống của bạn. Nếu bạn muốn đếm số từ trong tệp PDF, hãy tham khảo bài viết trên Đếm số từ trong tài liệu PDF bằng Node.js REST API.