Այս կարճ ձեռնարկը բացատրում է, թե ինչպես արտահանել տեքստ PDF փաստաթղթից C# REST API-ով: Դուք կսովորեք արտահանել տեքստ PDF-ից C# .NET-ի վրա հիմնված API օգտագործելով .NET-ի վրա հիմնված Cloud SDK-ի միջոցով: Այն ցույց է տալիս ամբողջական գործընթացը՝ կիսելով PDF տեքստը կարդալու և ցուցադրելու օրինակելի կոդը:
Նախապայման
Ստեղծեք հաշվի API հավատարմագրեր հանել տեքստը PDF-ից
Բեռնել Aspose.PDF Cloud SDK for Dotnet to read a PDF file
Կարգավորեք C# նախագիծը վերը նշված SDK-ով տեքստը բեռնելու համար
PDF տեքստի արդյունահանման քայլեր C# Low Code API-ով
- Կարգավորեք PdfApi-ը՝ տրամադրելով հավելվածի բանալին և SID՝ PDF ֆայլը կարդալու համար
- Վերբեռնեք սկզբնաղբյուր PDF ֆայլը տեքստը հանելու համար
- Աղբյուրի PDF ֆայլը հաջող վերբեռնելուց հետո զանգահարեք GetText() մեթոդը
- Սահմանեք էջի ուղղանկյուն տարածքը, որտեղից պետք է բեռնվի տեքստը բոլոր էջերում
- Վերլուծեք տեքստի բոլոր երևույթները API-ի պատասխանում և ցուցադրեք տեքստը
Այս քայլերը ենթադրում են * PDF տեքստը C# RESTful ծառայության միջոցով * կարդալու գործընթացը: Բեռնեք PDF ֆայլը Cloud պահեստում և զանգահարեք GetText() մեթոդը՝ բեռնված PDF ֆայլի բոլոր էջերից տեքստի բոլոր երևույթները էջի նշված ուղղանկյունից վերցնելու համար: Գովեք պատասխանի բոլոր երևույթների միջոցով և ցուցադրեք էջի համարը և տեքստը:
Կոդ՝ PDF-ից տեքստ վերցնելու համար C# REST ինտերֆեյսով
using System; | |
using System.IO; | |
using Aspose.Pdf.Cloud.Sdk.Api; | |
using Aspose.Pdf.Cloud.Sdk.Model; | |
using System.Collections.Generic; | |
namespace Aspose.PDF.Cloud.Examples.Kb | |
{ | |
public class PdfTasks | |
{ | |
public static void ReadPdf() | |
{ | |
PdfApi pdfApi = new PdfApi("APP_KEY", "APP_SID"); | |
String fileName = "TextAndImages.pdf"; | |
try | |
{ | |
// Upload source file | |
FilesUploadResult result = pdfApi.UploadFile(fileName, new MemoryStream(File.ReadAllBytes(fileName))); | |
if (result.Errors.Count == 0) | |
{ | |
TextRectsResponse response = pdfApi.GetText(fileName, 0, 0, 500, 600); | |
foreach(var occurrence in response.TextOccurrences.List) | |
{ | |
Console.WriteLine($"Page:{occurrence.Page} Text:{occurrence.Text}"); | |
} | |
} | |
} | |
catch (Exception ex) | |
{ | |
Console.WriteLine("error:" + ex.Message + "\n" + ex.StackTrace); | |
} | |
} | |
} | |
} |
Այս կոդը ցույց է տալիս C# REST ինտերֆեյսով * PDF-ից տեքստը առբերելու գործընթացը: Ուղղանկյուն տարածքը բաղկացած է ներքևի ձախից x և y դիրքից և վերին աջից x և y դիրքից, որի ներսում ցանկանում եք բեռնել տեքստը: Եթե Ձեզ անհրաժեշտ է տեքստ վերցնել մեկ էջից, օգտագործեք GetPageText() մեթոդը, որը պահանջում է էջի համարը որպես լրացուցիչ փաստարկ՝ էջն ընտրելու համար:
Այս հոդվածը մեզ սովորեցրել է կարդալ PDF ֆայլը առանց ձեր համակարգում տեղադրված PDF ընթերցման ծրագրերի օգտագործման: Եթե ցանկանում եք հաշվել PDF ֆայլի բառերի քանակը, տես Հաշվեք բառերը PDF փաստաթղթում C# REST API-ով-ի հոդվածը: