บทช่วยสอนสั้นๆ นี้จะอธิบายวิธีการ แยกข้อความจากเอกสาร PDF โดยใช้ C# REST API คุณจะได้เรียนรู้วิธี แยกข้อความออกจาก PDF โดยใช้ C# .NET-based API โดยใช้ Cloud SDK ที่ใช้ .NET โดยจะสาธิตกระบวนการทั้งหมดด้วยการแชร์โค้ดตัวอย่างสำหรับการอ่านและแสดงข้อความ PDF
ข้อกำหนดเบื้องต้น
สร้างข้อมูลประจำตัว API ของบัญชี แยกข้อความจาก PDF
ดาวน์โหลด Aspose.PDF Cloud SDK for Dotnet to read a PDF file
ตั้งค่าโครงการ C# ด้วย SDK ข้างต้นเพื่อดึงข้อความ
ขั้นตอนในการแยกข้อความ PDF ด้วย C# Low Code API
- กำหนดค่า PdfApi โดยระบุรหัสแอปพลิเคชันและ SID เพื่ออ่านไฟล์ PDF
- อัพโหลดไฟล์ PDF ต้นฉบับเพื่อแยกข้อความ
- เรียกใช้เมธอด GetText() เมื่ออัปโหลดไฟล์ PDF ต้นฉบับสำเร็จ
- กำหนดพื้นที่สี่เหลี่ยมผืนผ้าของหน้าที่จะดึงข้อความจากทุกหน้า
- วิเคราะห์การเกิดขึ้นทั้งหมดของข้อความในการตอบสนอง API และแสดงข้อความ
ขั้นตอนเหล่านี้ประกอบด้วยกระบวนการในการ อ่านข้อความ PDF ด้วย C# RESTful Service โหลดไฟล์ PDF ลงในที่จัดเก็บข้อมูลบนคลาวด์และเรียกใช้เมธอด GetText() เพื่อดึงข้อความทั้งหมดจากทุกหน้าในไฟล์ PDF ที่โหลดจากสี่เหลี่ยมผืนผ้าที่ระบุบนหน้า ชื่นชมข้อความทั้งหมดที่เกิดขึ้นในการตอบสนองและแสดงหมายเลขหน้าและข้อความ
โค้ดสำหรับดึงข้อความจาก PDF ด้วยอินเทอร์เฟซ C# REST
using System; | |
using System.IO; | |
using Aspose.Pdf.Cloud.Sdk.Api; | |
using Aspose.Pdf.Cloud.Sdk.Model; | |
using System.Collections.Generic; | |
namespace Aspose.PDF.Cloud.Examples.Kb | |
{ | |
public class PdfTasks | |
{ | |
public static void ReadPdf() | |
{ | |
PdfApi pdfApi = new PdfApi("APP_KEY", "APP_SID"); | |
String fileName = "TextAndImages.pdf"; | |
try | |
{ | |
// Upload source file | |
FilesUploadResult result = pdfApi.UploadFile(fileName, new MemoryStream(File.ReadAllBytes(fileName))); | |
if (result.Errors.Count == 0) | |
{ | |
TextRectsResponse response = pdfApi.GetText(fileName, 0, 0, 500, 600); | |
foreach(var occurrence in response.TextOccurrences.List) | |
{ | |
Console.WriteLine($"Page:{occurrence.Page} Text:{occurrence.Text}"); | |
} | |
} | |
} | |
catch (Exception ex) | |
{ | |
Console.WriteLine("error:" + ex.Message + "\n" + ex.StackTrace); | |
} | |
} | |
} | |
} |
โค้ดนี้สาธิตกระบวนการในการดึงข้อความจาก PDF ด้วยอินเทอร์เฟซ REST ของ C# พื้นที่สี่เหลี่ยมผืนผ้าประกอบด้วยตำแหน่ง x และ y ด้านล่างซ้ายและตำแหน่ง x และ y ด้านบนขวาซึ่งคุณต้องการดึงข้อความ หากคุณต้องการดึงข้อความจากหน้าเดียว ให้ใช้เมธอด GetPageText() ซึ่งต้องมีหมายเลขหน้าเป็นอาร์กิวเมนต์เพิ่มเติมเพื่อเลือกหน้า
บทความนี้สอนให้เราอ่านไฟล์ PDF โดยไม่ต้องใช้ซอฟต์แวร์อ่าน PDF ที่ติดตั้งอยู่ในระบบของคุณ หากคุณต้องการนับจำนวนคำในไฟล์ PDF โปรดดูบทความใน นับคำในเอกสาร PDF ด้วย C# REST API