Քաղեք տեքստ PDF փաստաթղթից C# REST API-ով

Այս կարճ ձեռնարկը բացատրում է, թե ինչպես արտահանել տեքստ PDF փաստաթղթից C# REST API-ով: Դուք կսովորեք արտահանել տեքստ PDF-ից C# .NET-ի վրա հիմնված API օգտագործելով .NET-ի վրա հիմնված Cloud SDK-ի միջոցով: Այն ցույց է տալիս ամբողջական գործընթացը՝ կիսելով PDF տեքստը կարդալու և ցուցադրելու օրինակելի կոդը:

Նախապայման

PDF տեքստի արդյունահանման քայլեր C# Low Code API-ով

  1. Կարգավորեք PdfApi-ը՝ տրամադրելով հավելվածի բանալին և SID՝ PDF ֆայլը կարդալու համար
  2. Վերբեռնեք սկզբնաղբյուր PDF ֆայլը տեքստը հանելու համար
  3. Աղբյուրի PDF ֆայլը հաջող վերբեռնելուց հետո զանգահարեք GetText() մեթոդը
  4. Սահմանեք էջի ուղղանկյուն տարածքը, որտեղից պետք է բեռնվի տեքստը բոլոր էջերում
  5. Վերլուծեք տեքստի բոլոր երևույթները API-ի պատասխանում և ցուցադրեք տեքստը

Այս քայլերը ենթադրում են * PDF տեքստը C# RESTful ծառայության միջոցով * կարդալու գործընթացը: Բեռնեք PDF ֆայլը Cloud պահեստում և զանգահարեք GetText() մեթոդը՝ բեռնված PDF ֆայլի բոլոր էջերից տեքստի բոլոր երևույթները էջի նշված ուղղանկյունից վերցնելու համար: Գովեք պատասխանի բոլոր երևույթների միջոցով և ցուցադրեք էջի համարը և տեքստը:

Կոդ՝ PDF-ից տեքստ վերցնելու համար C# REST ինտերֆեյսով

using System;
using System.IO;
using Aspose.Pdf.Cloud.Sdk.Api;
using Aspose.Pdf.Cloud.Sdk.Model;
using System.Collections.Generic;
namespace Aspose.PDF.Cloud.Examples.Kb
{
public class PdfTasks
{
public static void ReadPdf()
{
PdfApi pdfApi = new PdfApi("APP_KEY", "APP_SID");
String fileName = "TextAndImages.pdf";
try
{
// Upload source file
FilesUploadResult result = pdfApi.UploadFile(fileName, new MemoryStream(File.ReadAllBytes(fileName)));
if (result.Errors.Count == 0)
{
TextRectsResponse response = pdfApi.GetText(fileName, 0, 0, 500, 600);
foreach(var occurrence in response.TextOccurrences.List)
{
Console.WriteLine($"Page:{occurrence.Page} Text:{occurrence.Text}");
}
}
}
catch (Exception ex)
{
Console.WriteLine("error:" + ex.Message + "\n" + ex.StackTrace);
}
}
}
}

Այս կոդը ցույց է տալիս C# REST ինտերֆեյսով * PDF-ից տեքստը առբերելու գործընթացը: Ուղղանկյուն տարածքը բաղկացած է ներքևի ձախից x և y դիրքից և վերին աջից x և y դիրքից, որի ներսում ցանկանում եք բեռնել տեքստը: Եթե Ձեզ անհրաժեշտ է տեքստ վերցնել մեկ էջից, օգտագործեք GetPageText() մեթոդը, որը պահանջում է էջի համարը որպես լրացուցիչ փաստարկ՝ էջն ընտրելու համար:

Այս հոդվածը մեզ սովորեցրել է կարդալ PDF ֆայլը առանց ձեր համակարգում տեղադրված PDF ընթերցման ծրագրերի օգտագործման: Եթե ցանկանում եք հաշվել PDF ֆայլի բառերի քանակը, տես Հաշվեք բառերը PDF փաստաթղթում C# REST API-ով-ի հոդվածը:

 Հայերեն