Ez a rövid oktatóanyag elmagyarázza, hogyan lehet szöveget kivonni a PDF dokumentumból a C# REST API-val. Megtanulja, hogyan kivonhat szöveget PDF-ből C# .NET-alapú API-val egy .NET-alapú Cloud SDK segítségével. A teljes folyamatot szemlélteti a PDF szöveg olvasásához és megjelenítéséhez szükséges mintakód megosztásával.
Előfeltétel
Hozzon létre egy fiók API hitelesítő adatait szöveg kibontása PDF-ből
Letöltés Aspose.PDF Cloud SDK for Dotnet to read a PDF file
Állítsa be a C# projektet a fenti SDK-val a szöveg lekéréséhez
A PDF-szöveg kibontásának lépései a C# Low Code API-val
- Konfigurálja a PdfApi-t az alkalmazáskulcs és a SID megadásával a PDF-fájl olvasásához
- Töltse fel a forrás PDF-fájlt a szöveg kibontásához
- A forrás PDF-fájl sikeres feltöltése után hívja meg a GetText() metódust
- Állítsa be az oldalnak azt a téglalap alakú területét, ahonnan a szöveget le kell tölteni az összes oldalon
- Elemezze végig az API-válasz szövegének összes előfordulását, és jelenítse meg a szöveget
Ezek a lépések magukban foglalják a PDF-szöveg beolvasásának folyamatát a C# RESTful szolgáltatással. Töltse be a PDF-fájlt a felhőtárolóba, és hívja meg a GetText() metódust, hogy a betöltött PDF-fájl összes oldaláról lekérje a szöveg összes előfordulását az oldalon lévő megadott téglalapból. Dicséret minden előforduláson keresztül a válaszban, és jelenítse meg az oldalszámot és a szöveget.
Kód, amellyel szöveget kaphat PDF-ből a C# REST felülettel
using System; | |
using System.IO; | |
using Aspose.Pdf.Cloud.Sdk.Api; | |
using Aspose.Pdf.Cloud.Sdk.Model; | |
using System.Collections.Generic; | |
namespace Aspose.PDF.Cloud.Examples.Kb | |
{ | |
public class PdfTasks | |
{ | |
public static void ReadPdf() | |
{ | |
PdfApi pdfApi = new PdfApi("APP_KEY", "APP_SID"); | |
String fileName = "TextAndImages.pdf"; | |
try | |
{ | |
// Upload source file | |
FilesUploadResult result = pdfApi.UploadFile(fileName, new MemoryStream(File.ReadAllBytes(fileName))); | |
if (result.Errors.Count == 0) | |
{ | |
TextRectsResponse response = pdfApi.GetText(fileName, 0, 0, 500, 600); | |
foreach(var occurrence in response.TextOccurrences.List) | |
{ | |
Console.WriteLine($"Page:{occurrence.Page} Text:{occurrence.Text}"); | |
} | |
} | |
} | |
catch (Exception ex) | |
{ | |
Console.WriteLine("error:" + ex.Message + "\n" + ex.StackTrace); | |
} | |
} | |
} | |
} |
Ez a kód bemutatja a szöveg lekérésének folyamatát PDF-ből a C# REST felülettel. A téglalap alakú terület a bal alsó x és y pozícióból, valamint a jobb felső x és y pozícióból áll, amelyen belül a szöveget le kívánja kérni. Ha egyetlen oldalról kell szöveget lekérnie, használja a GetPageText() metódust, amely oldalszámot igényel további argumentumként az oldal kiválasztásához.
Ez a cikk megtanított bennünket arra, hogy a rendszerére telepített PDF-olvasó szoftver használata nélkül olvassuk el a PDF-fájlt. Ha meg szeretné számolni a szavak számát egy PDF-fájlban, olvassa el a Számolja meg a szavakat a PDF dokumentumban a C# REST API segítségével című cikket.