Извлечение текста из PDF-документа с помощью C# REST API

В этом кратком руководстве объясняется, как извлечь текст из документа PDF с помощью C# REST API. Вы научитесь извлекать текст из PDF с помощью C# .NET-based API, используя Cloud SDK на основе .NET. Он демонстрирует весь процесс, предоставляя пример кода для чтения и отображения текста PDF.

Необходимое условие

Шаги по извлечению текста PDF с помощью C# Low Code API

  1. Настройте PdfApi, указав ключ приложения и SID для чтения PDF-файла.
  2. Загрузите исходный PDF-файл для извлечения текста
  3. Вызовите метод GetText() после успешной загрузки исходного PDF-файла.
  4. Установите прямоугольную область страницы, из которой будет извлекаться текст на всех страницах.
  5. Проанализировать все вхождения текста в ответе API и отобразить текст

Эти шаги влекут за собой процесс чтения текста PDF с помощью C# RESTful Service. Загрузите файл PDF в хранилище Cloud и вызовите метод GetText(), чтобы извлечь все вхождения текста со всех страниц загруженного файла PDF из указанного прямоугольника на странице. Просмотрите все вхождения в ответе и отобразите номер страницы и текст.

Код для извлечения текста из PDF с помощью интерфейса C# REST

Этот код демонстрирует процесс извлечения текста из PDF с помощью интерфейса C# REST. Прямоугольная область состоит из нижней левой позиции x и y и верхней правой позиции x и y, в пределах которой вы хотите извлечь текст. Если вам нужно извлечь текст с одной страницы, используйте метод GetPageText(), который требует номер страницы в качестве дополнительного аргумента для выбора страницы.

Эта статья научила нас читать PDF-файл без использования программного обеспечения для чтения PDF-файлов, установленного в вашей системе. Если вы хотите подсчитать количество слов в PDF-файле, обратитесь к статье Подсчет слов в PDF-документе с помощью C# REST API.

 Русский