У цьому короткому посібнику пояснюється, як витягувати текст з документа PDF за допомогою Java REST API. Ви навчитеся витягувати текст з PDF за допомогою API на основі Java, використовуючи Cloud SDK на основі Java. Він демонструє повний процес, надаючи приклад коду для читання та відображення тексту PDF.
Передумова
- Створення облікових даних API витягти текст з PDF-файлу
- Завантажте Хмарний SDK Aspose.PDF для Dotjava, щоб прочитати PDF-файл
- Налаштуйте Java-проект за допомогою вищевказаного SDK для отримання тексту
Кроки для вилучення PDF-тексту за допомогою Java Low Code API
- Налаштуйте PdfApi, вказавши ключ програми та SID для читання PDF-файлу.
- Завантажте вихідний PDF-файл для вилучення тексту
- Викликати метод GetText() після успішного завантаження вихідного PDF-файлу
- Встановіть прямокутну область сторінки, з якої потрібно витягувати текст на всіх сторінках
- Проаналізуйте всі входження тексту у відповідь API та відобразіть текст
Ці кроки включають процес читання PDF-тексту за допомогою Java RESTful Service. Завантажте PDF-файл у хмарне сховище та викличте метод GetText(), щоб отримати всі екземпляри тексту з усіх сторінок завантаженого PDF-файлу з указаного прямокутника на сторінці. Перевірте всі екземпляри у відповіді та відобразіть номер сторінки та текст.
Код для отримання тексту з PDF за допомогою інтерфейсу Java REST
Цей код демонструє процес отримання тексту з PDF за допомогою інтерфейсу Java REST. Прямокутна область складається з нижньої лівої позиції x та y та верхньої правої позиції x та y, в межах яких потрібно отримати текст. Якщо вам потрібно отримати текст з однієї сторінки, використовуйте метод GetPageText(), який вимагає номера сторінки як додаткового аргументу для вибору сторінки.
Ця стаття навчила нас читати PDF-файл без використання будь-якого програмного забезпечення для читання PDF-файлів, встановленого на вашій системі. Якщо ви хочете підрахувати кількість слів у PDF-файлі, зверніться до статті про {{HYPERLINK1}}.