ดึงข้อความจากเอกสาร PDF ด้วย Node.js REST API

บทช่วยสอนสั้นๆ นี้จะอธิบายวิธี ดึงข้อความจากเอกสาร PDF ด้วย Node.js REST API คุณจะได้เรียนรู้วิธี ดึงข้อความออกจาก PDF ด้วย Node.js-based API โดยใช้ Cloud SDK ที่ใช้ Node.js บทช่วยสอนนี้จะสาธิตขั้นตอนทั้งหมดโดยการแบ่งปันโค้ดตัวอย่างสำหรับการอ่านและแสดงข้อความ PDF

ข้อกำหนดเบื้องต้น

ขั้นตอนในการแยกข้อความ PDF ด้วย Node.js Low Code API

  1. กำหนดค่า PdfApi โดยระบุรหัสแอปพลิเคชันและ SID เพื่ออ่านไฟล์ PDF
  2. อัปโหลดไฟล์ PDF ต้นฉบับเพื่อแยกข้อความ
  3. เรียกใช้เมธอด รับข้อความ() เมื่ออัปโหลดไฟล์ PDF ต้นฉบับสำเร็จ
  4. กำหนดพื้นที่สี่เหลี่ยมของหน้าที่จะดึงข้อความจากทุกหน้า
  5. แยกวิเคราะห์การเกิดขึ้นทั้งหมดของข้อความในการตอบสนอง API และแสดงข้อความ

ขั้นตอนเหล่านี้ประกอบด้วยกระบวนการ อ่านข้อความ PDF ด้วย Node.js RESTful Service โหลดไฟล์ PDF ลงในพื้นที่เก็บข้อมูลบนคลาวด์ และเรียกใช้เมธอด GetText() เพื่อดึงข้อมูลข้อความทั้งหมดจากทุกหน้าในไฟล์ PDF ที่โหลดจากสี่เหลี่ยมที่ระบุบนหน้านั้น แสดงความชื่นชมผ่านทุกข้อความในการตอบสนอง และแสดงหมายเลขหน้าและข้อความ

โค้ดสำหรับดึงข้อความจาก PDF ด้วยอินเทอร์เฟซ REST ของ Node.js

โค้ดนี้สาธิตกระบวนการ ดึงข้อความจาก PDF ด้วย Node.js REST Interface พื้นที่สี่เหลี่ยมผืนผ้าประกอบด้วยตำแหน่ง x และ y ด้านซ้ายล่าง และตำแหน่ง x และ y ด้านขวาบน ซึ่งเป็นตำแหน่งที่คุณต้องการดึงข้อความ หากคุณต้องการดึงข้อความจากหน้าเดียว ให้ใช้เมธอด GetPageText() ซึ่งกำหนดให้มีหมายเลขหน้าเป็นอาร์กิวเมนต์เพิ่มเติมเพื่อเลือกหน้านั้น

บทความนี้สอนให้เราอ่านไฟล์ PDF โดยไม่ต้องใช้ซอฟต์แวร์อ่าน PDF ใดๆ ที่ติดตั้งอยู่ในระบบของคุณ หากคุณต้องการนับจำนวนคำในไฟล์ PDF โปรดดูบทความใน นับคำในเอกสาร PDF ด้วย Node.js REST API

 ไทย