Витягніть текст із PDF-документа за допомогою Node.js REST API

У цьому короткому посібнику пояснюється, як витягти текст із документа PDF за допомогою Node.js REST API. Ви навчитеся видобувати текст із PDF за допомогою API на основі Node.js за допомогою Cloud SDK на основі Node.js. Він демонструє повний процес, надсилаючи зразок коду для читання та відображення тексту PDF.

Обов’язкова умова

Кроки для вилучення PDF-тексту за допомогою Node.js Low Code API

  1. Налаштуйте PdfApi, надавши ключ програми та SID для читання файлу PDF
  2. Завантажте вихідний PDF-файл для вилучення тексту
  3. Викличте метод GetText() після успішного завантаження вихідного файлу PDF
  4. Встановіть прямокутну область сторінки, з якої буде отримано текст на всіх сторінках
  5. Проаналізуйте всі входження тексту у відповідь API та відобразіть текст

Ці кроки передбачають процес читання тексту PDF за допомогою Node.js RESTful Service. Завантажте PDF-файл у хмарне сховище та викличте метод GetText(), щоб отримати всі входження тексту з усіх сторінок завантаженого PDF-файлу з указаного прямокутника на сторінці. Хваліть через усі випадки у відповіді та відображайте номер сторінки та текст.

Код для отримання тексту з PDF за допомогою інтерфейсу REST Node.js

Цей код демонструє процес отримання тексту з PDF за допомогою інтерфейсу REST Node.js. Прямокутна область складається з нижньої лівої позиції x і y і верхньої правої позиції x і y, у межах якої ви хочете отримати текст. Якщо вам потрібно отримати текст з однієї сторінки, скористайтеся методом GetPageText(), який вимагає номер сторінки як додатковий аргумент для вибору сторінки.

Ця стаття навчила нас читати файл PDF без використання будь-якого програмного забезпечення для читання PDF, встановленого у вашій системі. Якщо ви хочете підрахувати кількість слів у файлі PDF, зверніться до статті Підраховуйте слова в документі PDF за допомогою Node.js REST API.

 Українська