Вилучення тексту з PDF-документа за допомогою Java REST API

У цьому короткому посібнику пояснюється, як витягувати текст з документа PDF за допомогою Java REST API. Ви навчитеся витягувати текст з PDF за допомогою API на основі Java, використовуючи Cloud SDK на основі Java. Він демонструє повний процес, надаючи приклад коду для читання та відображення тексту PDF.

Передумова

Кроки для вилучення PDF-тексту за допомогою Java Low Code API

  1. Налаштуйте PdfApi, вказавши ключ програми та SID для читання PDF-файлу.
  2. Завантажте вихідний PDF-файл для вилучення тексту
  3. Викликати метод GetText() після успішного завантаження вихідного PDF-файлу
  4. Встановіть прямокутну область сторінки, з якої потрібно витягувати текст на всіх сторінках
  5. Проаналізуйте всі входження тексту у відповідь API та відобразіть текст

Ці кроки включають процес читання PDF-тексту за допомогою Java RESTful Service. Завантажте PDF-файл у хмарне сховище та викличте метод GetText(), щоб отримати всі екземпляри тексту з усіх сторінок завантаженого PDF-файлу з указаного прямокутника на сторінці. Перевірте всі екземпляри у відповіді та відобразіть номер сторінки та текст.

Код для отримання тексту з PDF за допомогою інтерфейсу Java REST

Цей код демонструє процес отримання тексту з PDF за допомогою інтерфейсу Java REST. Прямокутна область складається з нижньої лівої позиції x та y та верхньої правої позиції x та y, в межах яких потрібно отримати текст. Якщо вам потрібно отримати текст з однієї сторінки, використовуйте метод GetPageText(), який вимагає номера сторінки як додаткового аргументу для вибору сторінки.

Ця стаття навчила нас читати PDF-файл без використання будь-якого програмного забезпечення для читання PDF-файлів, встановленого на вашій системі. Якщо ви хочете підрахувати кількість слів у PDF-файлі, зверніться до статті про {{HYPERLINK1}}.

 Українська