В этом кратком руководстве объясняется, как извлечь текст из документа PDF с помощью C# REST API. Вы научитесь извлекать текст из PDF с помощью C# .NET-based API, используя Cloud SDK на основе .NET. Он демонстрирует весь процесс, предоставляя пример кода для чтения и отображения текста PDF.
Необходимое условие
Создать учетные данные API учетной записи извлечь текст из PDF
Скачать Aspose.PDF Cloud SDK for Dotnet to read a PDF file
Настройка проекта C# с указанным выше SDK для извлечения текста
Шаги по извлечению текста PDF с помощью C# Low Code API
- Настройте PdfApi, указав ключ приложения и SID для чтения PDF-файла.
- Загрузите исходный PDF-файл для извлечения текста
- Вызовите метод GetText() после успешной загрузки исходного PDF-файла.
- Установите прямоугольную область страницы, из которой будет извлекаться текст на всех страницах.
- Проанализировать все вхождения текста в ответе API и отобразить текст
Эти шаги влекут за собой процесс чтения текста PDF с помощью C# RESTful Service. Загрузите файл PDF в хранилище Cloud и вызовите метод GetText(), чтобы извлечь все вхождения текста со всех страниц загруженного файла PDF из указанного прямоугольника на странице. Просмотрите все вхождения в ответе и отобразите номер страницы и текст.
Код для извлечения текста из PDF с помощью интерфейса C# REST
Этот код демонстрирует процесс извлечения текста из PDF с помощью интерфейса C# REST. Прямоугольная область состоит из нижней левой позиции x и y и верхней правой позиции x и y, в пределах которой вы хотите извлечь текст. Если вам нужно извлечь текст с одной страницы, используйте метод GetPageText(), который требует номер страницы в качестве дополнительного аргумента для выбора страницы.
Эта статья научила нас читать PDF-файл без использования программного обеспечения для чтения PDF-файлов, установленного в вашей системе. Если вы хотите подсчитать количество слов в PDF-файле, обратитесь к статье Подсчет слов в PDF-документе с помощью C# REST API.