Ovaj kratki vodič objašnjava kako izdvojiti tekst iz PDF dokumenta pomoću C# REST API-ja. Naučit ćete izdvojiti tekst iz PDF-a pomoću API-ja temeljenog na C# .NET koristeći Cloud SDK temeljen na .NET. Demonstrira cijeli proces dijeljenjem uzorka koda za čitanje i prikazivanje PDF teksta.
Preduvjet
Stvorite API vjerodajnice računa izdvojiti tekst iz PDF-a
preuzimanje Aspose.PDF Cloud SDK for Dotnet to read a PDF file
Postavite C# projekt s gornjim SDK-om za dohvaćanje teksta
Koraci za izdvajanje PDF teksta s C# Low Code API-jem
- Konfigurirajte PdfApi dajući aplikacijski ključ i SID za čitanje PDF datoteke
- Učitajte izvornu PDF datoteku za izdvajanje teksta
- Pozovite metodu GetText() nakon uspješnog učitavanja izvorne PDF datoteke
- Postavite pravokutno područje stranice iz kojeg će se dohvatiti tekst na svim stranicama
- Raščlanite sva pojavljivanja teksta u API odgovoru i prikažite tekst
Ovi koraci podrazumijevaju postupak čitanja PDF teksta s C# RESTful uslugom. Učitajte PDF datoteku u pohranu u oblaku i pozovite metodu GetText() za dohvaćanje svih pojavljivanja teksta sa svih stranica učitane PDF datoteke iz navedenog pravokutnika na stranici. Pohvala kroz sva pojavljivanja u odgovoru i prikaz broja stranice i teksta.
Kod za preuzimanje teksta iz PDF-a s C# REST sučeljem
using System; | |
using System.IO; | |
using Aspose.Pdf.Cloud.Sdk.Api; | |
using Aspose.Pdf.Cloud.Sdk.Model; | |
using System.Collections.Generic; | |
namespace Aspose.PDF.Cloud.Examples.Kb | |
{ | |
public class PdfTasks | |
{ | |
public static void ReadPdf() | |
{ | |
PdfApi pdfApi = new PdfApi("APP_KEY", "APP_SID"); | |
String fileName = "TextAndImages.pdf"; | |
try | |
{ | |
// Upload source file | |
FilesUploadResult result = pdfApi.UploadFile(fileName, new MemoryStream(File.ReadAllBytes(fileName))); | |
if (result.Errors.Count == 0) | |
{ | |
TextRectsResponse response = pdfApi.GetText(fileName, 0, 0, 500, 600); | |
foreach(var occurrence in response.TextOccurrences.List) | |
{ | |
Console.WriteLine($"Page:{occurrence.Page} Text:{occurrence.Text}"); | |
} | |
} | |
} | |
catch (Exception ex) | |
{ | |
Console.WriteLine("error:" + ex.Message + "\n" + ex.StackTrace); | |
} | |
} | |
} | |
} |
Ovaj kôd demonstrira proces dohvaćanja teksta iz PDF-a s C# REST sučeljem. Pravokutno područje sastoji se od donje lijeve x i y pozicije i gornje desne x i y pozicije unutar koje želite dohvatiti tekst. Ako trebate dohvatiti tekst s jedne stranice, upotrijebite metodu GetPageText() koja zahtijeva broj stranice kao dodatni argument za odabir stranice.
Ovaj nas je članak naučio čitati PDF datoteku bez korištenja softvera za čitanje PDF-a instaliranog na vašem sustavu. Ako želite izbrojati broj riječi u PDF datoteci, pogledajte članak na Brojite riječi u PDF dokumentu pomoću C# REST API-ja.