Извлечение текста из PDF-документа с помощью Java REST API

В этом кратком руководстве объясняется, как извлечь текст из документа PDF с помощью Java REST API. Вы научитесь извлекать текст из PDF-файла с помощью Java API, используя Cloud SDK на базе Java. В руководстве продемонстрирован весь процесс с помощью примера кода для чтения и отображения текста PDF-файла.

Необходимое условие

Шаги по извлечению текста из PDF-файла с помощью Java Low Code API

  1. Настройте PdfApi, указав ключ приложения и SID для чтения PDF-файла.
  2. Загрузите исходный PDF-файл для извлечения текста.
  3. Вызовите метод ПолучитьТекст() после успешной загрузки исходного PDF-файла.
  4. Установите прямоугольную область страницы, из которой будет извлечен текст на всех страницах.
  5. Проанализировать все вхождения текста в ответе API и отобразить текст

Эти шаги подразумевают процесс чтения текста PDF-файла с помощью Java RESTful Service. Загрузите PDF-файл в облачное хранилище и вызовите метод GetText() для извлечения всех вхождений текста со всех страниц загруженного PDF-файла из указанного прямоугольника на странице. Просмотрите все вхождения в ответе и отобразите номер страницы и текст.

Код для извлечения текста из PDF-файла с помощью интерфейса Java REST

Этот код демонстрирует процесс извлечения текста из PDF-файла с помощью интерфейса Java REST. Прямоугольная область состоит из координат x и y в нижнем левом углу и координат x и y в верхнем правом углу, из которых нужно извлечь текст. Если нужно извлечь текст с одной страницы, используйте метод GetPageText(), который принимает номер страницы в качестве дополнительного аргумента для выбора страницы.

Эта статья научила нас читать PDF-файлы без использования какого-либо программного обеспечения для чтения PDF-файлов, установленного в вашей системе. Если вы хотите подсчитать количество слов в PDF-файле, обратитесь к статье на Подсчет количества слов в PDF-документе с помощью Java REST API.

 Русский