ดึงข้อความจากเอกสาร PDF ด้วย Java REST API

บทช่วยสอนสั้นๆ นี้จะอธิบายวิธี ดึงข้อความจากเอกสาร PDF ด้วย Java REST API คุณจะได้เรียนรู้วิธี ดึงข้อความออกจาก PDF ด้วย Java-based API โดยใช้ Cloud SDK ที่ใช้ Java บทช่วยสอนนี้จะสาธิตขั้นตอนทั้งหมดโดยการแบ่งปันโค้ดตัวอย่างสำหรับการอ่านและแสดงข้อความ PDF

ข้อกำหนดเบื้องต้น

ขั้นตอนในการแยกข้อความ PDF ด้วย Java Low Code API

  1. กำหนดค่า PdfApi โดยระบุรหัสแอปพลิเคชันและ SID เพื่ออ่านไฟล์ PDF
  2. อัปโหลดไฟล์ PDF ต้นฉบับเพื่อแยกข้อความ
  3. เรียกใช้เมธอด รับข้อความ() เมื่ออัปโหลดไฟล์ PDF ต้นฉบับสำเร็จ
  4. กำหนดพื้นที่สี่เหลี่ยมของหน้าที่จะดึงข้อความจากทุกหน้า
  5. แยกวิเคราะห์การเกิดขึ้นทั้งหมดของข้อความในการตอบสนอง API และแสดงข้อความ

ขั้นตอนเหล่านี้ประกอบด้วยกระบวนการ อ่านข้อความ PDF ด้วย Java RESTful Service โหลดไฟล์ PDF ลงในพื้นที่จัดเก็บข้อมูลบนคลาวด์ และเรียกใช้เมธอด GetText() เพื่อดึงข้อมูลข้อความทั้งหมดจากทุกหน้าในไฟล์ PDF ที่โหลดจากสี่เหลี่ยมที่ระบุบนหน้านั้น แสดงผลข้อความทั้งหมดในการตอบกลับ และแสดงหมายเลขหน้าและข้อความ

โค้ดสำหรับดึงข้อความจาก PDF ด้วยอินเทอร์เฟซ Java REST

โค้ดนี้สาธิตกระบวนการ ดึงข้อความจาก PDF ด้วย Java REST Interface พื้นที่สี่เหลี่ยมผืนผ้าประกอบด้วยตำแหน่ง x และ y ด้านซ้ายล่าง และตำแหน่ง x และ y ด้านขวาบน ซึ่งเป็นตำแหน่งที่คุณต้องการดึงข้อความ หากคุณต้องการดึงข้อความจากหน้าเดียว ให้ใช้เมธอด GetPageText() ซึ่งกำหนดให้มีหมายเลขหน้าเป็นอาร์กิวเมนต์เพิ่มเติมเพื่อเลือกหน้า

บทความนี้สอนให้เราอ่านไฟล์ PDF โดยไม่ต้องใช้ซอฟต์แวร์อ่าน PDF ใดๆ ที่ติดตั้งอยู่ในระบบของคุณ หากคุณต้องการนับจำนวนคำในไฟล์ PDF โปรดดูบทความใน นับคำในเอกสาร PDF ด้วย Java REST API

 ไทย