Извлечение текста из PDF-документа с помощью Node.js REST API

В этом кратком руководстве объясняется, как извлечь текст из документа PDF с помощью REST API Node.js. Вы научитесь извлекать текст из PDF-файла с помощью API на основе Node.js, используя Cloud SDK на основе Node.js. Полный процесс продемонстрирован на примере кода для чтения и отображения текста PDF-файла.

Необходимое условие

Шаги по извлечению текста из PDF-файла с помощью Node.js Low Code API

  1. Настройте PdfApi, указав ключ приложения и SID для чтения PDF-файла.
  2. Загрузите исходный PDF-файл для извлечения текста.
  3. Вызовите метод ПолучитьТекст() после успешной загрузки исходного PDF-файла.
  4. Установите прямоугольную область страницы, из которой будет извлечен текст на всех страницах.
  5. Проанализировать все вхождения текста в ответе API и отобразить текст

Эти шаги подразумевают процесс чтения текста PDF с помощью RESTful-сервиса Node.js. Загрузите PDF-файл в облачное хранилище и вызовите метод GetText(), чтобы получить все вхождения текста со всех страниц загруженного PDF-файла из указанного прямоугольника на странице. Просмотрите все вхождения в ответе и отобразите номер страницы и текст.

Код для извлечения текста из PDF с помощью интерфейса Node.js REST

Этот код демонстрирует процесс извлечения текста из PDF-файла с помощью REST-интерфейса Node.js. Прямоугольная область состоит из координат x и y в нижнем левом углу и координат x и y в верхнем правом углу, в пределах которых требуется извлечь текст. Если нужно извлечь текст с одной страницы, используйте метод GetPageText(), который принимает номер страницы в качестве дополнительного аргумента для выбора страницы.

Эта статья научила нас читать PDF-файлы без использования какого-либо программного обеспечения для чтения PDF-файлов, установленного в вашей системе. Если вы хотите подсчитать количество слов в PDF-файле, обратитесь к статье на Подсчёт слов в PDF-документе с помощью Node.js REST API.

 Русский