Извличане на текст от PDF документ с C# REST API

Този кратък урок обяснява как да извлечете текст от документ PDF с C# REST API. Ще се научите да извличате текст от PDF с C# .NET-базиран API с помощта на .NET-базиран Cloud SDK. Той демонстрира пълния процес, като споделя примерен код за четене и показване на PDF текста.

Предпоставка

Стъпки за извличане на PDF текст с C# Low Code API

  1. Конфигурирайте PdfApi, като предоставите ключа на приложението и SID за четене на PDF файла
  2. Качете изходния PDF файл за извличане на текста
  3. Извикайте метода GetText() при успешно качване на изходния PDF файл
  4. Задайте правоъгълната област на страницата, от която да се извлича текст на всички страници
  5. Анализирайте всички срещания на текста в отговора на API и покажете текста

Тези стъпки водят до процеса за четене на PDF текст с C# RESTful Service. Заредете PDF файла в облачното хранилище и извикайте метода GetText(), за да извлечете всички повторения на текста от всички страници в заредения PDF файл от посочения правоъгълник на страницата. Похвалете всички случаи в отговора и покажете номера на страницата и текста.

Код за извличане на текст от PDF с C# REST интерфейс

using System;
using System.IO;
using Aspose.Pdf.Cloud.Sdk.Api;
using Aspose.Pdf.Cloud.Sdk.Model;
using System.Collections.Generic;
namespace Aspose.PDF.Cloud.Examples.Kb
{
public class PdfTasks
{
public static void ReadPdf()
{
PdfApi pdfApi = new PdfApi("APP_KEY", "APP_SID");
String fileName = "TextAndImages.pdf";
try
{
// Upload source file
FilesUploadResult result = pdfApi.UploadFile(fileName, new MemoryStream(File.ReadAllBytes(fileName)));
if (result.Errors.Count == 0)
{
TextRectsResponse response = pdfApi.GetText(fileName, 0, 0, 500, 600);
foreach(var occurrence in response.TextOccurrences.List)
{
Console.WriteLine($"Page:{occurrence.Page} Text:{occurrence.Text}");
}
}
}
catch (Exception ex)
{
Console.WriteLine("error:" + ex.Message + "\n" + ex.StackTrace);
}
}
}
}

Този код демонстрира процеса за извличане на текст от PDF с C# REST интерфейс. Правоъгълната област се състои от долната лява позиция x и y и горната дясна позиция x и y, в рамките на която искате да извлечете текста. Ако трябва да извлечете текст от една страница, използвайте метода GetPageText(), който изисква номер на страница като допълнителен аргумент за избор на страницата.

Тази статия ни научи да четем PDF файла, без да използваме софтуер за четене на PDF, инсталиран на вашата система. Ако искате да преброите броя на думите в PDF файл, вижте статията на Бройте думи в PDF документ с C# REST API.

 Български