Szöveg kibontása PDF-dokumentumból a C# REST API segítségével

Ez a rövid oktatóanyag elmagyarázza, hogyan lehet szöveget kivonni a PDF dokumentumból a C# REST API-val. Megtanulja, hogyan kivonhat szöveget PDF-ből C# .NET-alapú API-val egy .NET-alapú Cloud SDK segítségével. A teljes folyamatot szemlélteti a PDF szöveg olvasásához és megjelenítéséhez szükséges mintakód megosztásával.

Előfeltétel

A PDF-szöveg kibontásának lépései a C# Low Code API-val

  1. Konfigurálja a PdfApi-t az alkalmazáskulcs és a SID megadásával a PDF-fájl olvasásához
  2. Töltse fel a forrás PDF-fájlt a szöveg kibontásához
  3. A forrás PDF-fájl sikeres feltöltése után hívja meg a GetText() metódust
  4. Állítsa be az oldalnak azt a téglalap alakú területét, ahonnan a szöveget le kell tölteni az összes oldalon
  5. Elemezze végig az API-válasz szövegének összes előfordulását, és jelenítse meg a szöveget

Ezek a lépések magukban foglalják a PDF-szöveg beolvasásának folyamatát a C# RESTful szolgáltatással. Töltse be a PDF-fájlt a felhőtárolóba, és hívja meg a GetText() metódust, hogy a betöltött PDF-fájl összes oldaláról lekérje a szöveg összes előfordulását az oldalon lévő megadott téglalapból. Dicséret minden előforduláson keresztül a válaszban, és jelenítse meg az oldalszámot és a szöveget.

Kód, amellyel szöveget kaphat PDF-ből a C# REST felülettel

using System;
using System.IO;
using Aspose.Pdf.Cloud.Sdk.Api;
using Aspose.Pdf.Cloud.Sdk.Model;
using System.Collections.Generic;
namespace Aspose.PDF.Cloud.Examples.Kb
{
public class PdfTasks
{
public static void ReadPdf()
{
PdfApi pdfApi = new PdfApi("APP_KEY", "APP_SID");
String fileName = "TextAndImages.pdf";
try
{
// Upload source file
FilesUploadResult result = pdfApi.UploadFile(fileName, new MemoryStream(File.ReadAllBytes(fileName)));
if (result.Errors.Count == 0)
{
TextRectsResponse response = pdfApi.GetText(fileName, 0, 0, 500, 600);
foreach(var occurrence in response.TextOccurrences.List)
{
Console.WriteLine($"Page:{occurrence.Page} Text:{occurrence.Text}");
}
}
}
catch (Exception ex)
{
Console.WriteLine("error:" + ex.Message + "\n" + ex.StackTrace);
}
}
}
}

Ez a kód bemutatja a szöveg lekérésének folyamatát PDF-ből a C# REST felülettel. A téglalap alakú terület a bal alsó x és y pozícióból, valamint a jobb felső x és y pozícióból áll, amelyen belül a szöveget le kívánja kérni. Ha egyetlen oldalról kell szöveget lekérnie, használja a GetPageText() metódust, amely oldalszámot igényel további argumentumként az oldal kiválasztásához.

Ez a cikk megtanított bennünket arra, hogy a rendszerére telepített PDF-olvasó szoftver használata nélkül olvassuk el a PDF-fájlt. Ha meg szeretné számolni a szavak számát egy PDF-fájlban, olvassa el a Számolja meg a szavakat a PDF dokumentumban a C# REST API segítségével című cikket.

 Magyar