Извлечение текста из PDF-документа с помощью C# REST API

В этом кратком руководстве объясняется, как извлечь текст из документа PDF с помощью C# REST API. Вы научитесь извлекать текст из PDF с помощью C# .NET-based API, используя Cloud SDK на основе .NET. Он демонстрирует весь процесс, предоставляя пример кода для чтения и отображения текста PDF.

Необходимое условие

Шаги по извлечению текста PDF с помощью C# Low Code API

  1. Настройте PdfApi, указав ключ приложения и SID для чтения PDF-файла.
  2. Загрузите исходный PDF-файл для извлечения текста
  3. Вызовите метод GetText() после успешной загрузки исходного PDF-файла.
  4. Установите прямоугольную область страницы, из которой будет извлекаться текст на всех страницах.
  5. Проанализировать все вхождения текста в ответе API и отобразить текст

Эти шаги влекут за собой процесс чтения текста PDF с помощью C# RESTful Service. Загрузите файл PDF в хранилище Cloud и вызовите метод GetText(), чтобы извлечь все вхождения текста со всех страниц загруженного файла PDF из указанного прямоугольника на странице. Просмотрите все вхождения в ответе и отобразите номер страницы и текст.

Код для извлечения текста из PDF с помощью интерфейса C# REST

using System;
using System.IO;
using Aspose.Pdf.Cloud.Sdk.Api;
using Aspose.Pdf.Cloud.Sdk.Model;
using System.Collections.Generic;
namespace Aspose.PDF.Cloud.Examples.Kb
{
public class PdfTasks
{
public static void ReadPdf()
{
PdfApi pdfApi = new PdfApi("APP_KEY", "APP_SID");
String fileName = "TextAndImages.pdf";
try
{
// Upload source file
FilesUploadResult result = pdfApi.UploadFile(fileName, new MemoryStream(File.ReadAllBytes(fileName)));
if (result.Errors.Count == 0)
{
TextRectsResponse response = pdfApi.GetText(fileName, 0, 0, 500, 600);
foreach(var occurrence in response.TextOccurrences.List)
{
Console.WriteLine($"Page:{occurrence.Page} Text:{occurrence.Text}");
}
}
}
catch (Exception ex)
{
Console.WriteLine("error:" + ex.Message + "\n" + ex.StackTrace);
}
}
}
}

Этот код демонстрирует процесс извлечения текста из PDF с помощью интерфейса C# REST. Прямоугольная область состоит из нижней левой позиции x и y и верхней правой позиции x и y, в пределах которой вы хотите извлечь текст. Если вам нужно извлечь текст с одной страницы, используйте метод GetPageText(), который требует номер страницы в качестве дополнительного аргумента для выбора страницы.

Эта статья научила нас читать PDF-файл без использования программного обеспечения для чтения PDF-файлов, установленного в вашей системе. Если вы хотите подсчитать количество слов в PDF-файле, обратитесь к статье Подсчет слов в PDF-документе с помощью C# REST API.

 Русский