Deze korte tutorial legt uit hoe u tekst uit een PDF-document kunt extraheren met C# REST API. U leert hoe u tekst uit een PDF kunt extraheren met C# .NET-gebaseerde API met behulp van een .NET-gebaseerde Cloud SDK. Het demonstreert het volledige proces door een voorbeeldcode te delen voor het lezen en weergeven van de PDF-tekst.
Voorwaarde
Maak een account API-referenties tekst uit PDF extraheren
Download Aspose.PDF Cloud SDK for Dotnet to read a PDF file
Stel een C#-project in met de bovenstaande SDK voor het ophalen van tekst
Stappen om PDF-tekst te extraheren met C# Low Code API
- Configureer de PdfApi door de toepassingssleutel en SID op te geven om het PDF-bestand te lezen
- Upload het bron-PDF-bestand om de tekst te extraheren
- Roep de GetText()-methode aan na het succesvol uploaden van het bron-PDF-bestand
- Stel het rechthoekige gebied van de pagina in waaruit tekst op alle pagina’s moet worden opgehaald
- Analyseer alle voorkomens van de tekst in het API-antwoord en geef de tekst weer
Deze stappen omvatten het proces om PDF-tekst te lezen met C# RESTful Service. Laad het PDF-bestand in de Cloud-opslag en roep de GetText()-methode aan om alle voorkomens van de tekst op te halen van alle pagina’s in het geladen PDF-bestand van de opgegeven rechthoek op de pagina. Prijs alle voorkomens in de respons en geef het paginanummer en de tekst weer.
Code om tekst uit PDF te halen met C# REST-interface
using System; | |
using System.IO; | |
using Aspose.Pdf.Cloud.Sdk.Api; | |
using Aspose.Pdf.Cloud.Sdk.Model; | |
using System.Collections.Generic; | |
namespace Aspose.PDF.Cloud.Examples.Kb | |
{ | |
public class PdfTasks | |
{ | |
public static void ReadPdf() | |
{ | |
PdfApi pdfApi = new PdfApi("APP_KEY", "APP_SID"); | |
String fileName = "TextAndImages.pdf"; | |
try | |
{ | |
// Upload source file | |
FilesUploadResult result = pdfApi.UploadFile(fileName, new MemoryStream(File.ReadAllBytes(fileName))); | |
if (result.Errors.Count == 0) | |
{ | |
TextRectsResponse response = pdfApi.GetText(fileName, 0, 0, 500, 600); | |
foreach(var occurrence in response.TextOccurrences.List) | |
{ | |
Console.WriteLine($"Page:{occurrence.Page} Text:{occurrence.Text}"); | |
} | |
} | |
} | |
catch (Exception ex) | |
{ | |
Console.WriteLine("error:" + ex.Message + "\n" + ex.StackTrace); | |
} | |
} | |
} | |
} |
Deze code demonstreert het proces om tekst uit PDF op te halen met C# REST Interface. Het rechthoekige gebied bestaat uit de x- en y-positie linksonder en de x- en y-positie rechtsboven waarbinnen u de tekst wilt ophalen. Als u tekst van één pagina wilt ophalen, gebruikt u de GetPageText()-methode die een paginanummer als extra argument vereist om de pagina te selecteren.
Dit artikel heeft ons geleerd om het PDF-bestand te lezen zonder dat u PDF-leessoftware op uw systeem hoeft te installeren. Als u het aantal woorden in een PDF-bestand wilt tellen, raadpleeg dan het artikel op Woorden tellen in PDF-document met C# REST API.