Извличане на текст от PDF документ с Java REST API

Този кратък урок обяснява как да извлечете текст от PDF документ с Java REST API. Ще научите как да извличате текст от PDF с Java-базиран API, използвайки Java-базиран Cloud SDK. Той демонстрира целия процес, като споделя примерен код за четене и показване на PDF текст.

Предварително условие

Стъпки за извличане на PDF текст с Java Low Code API

  1. Конфигурирайте PdfApi, като предоставите ключа на приложението и SID, за да прочетете PDF файла.
  2. Качете изходния PDF файл за извличане на текста
  3. Извикайте метода GetText() при успешно качване на изходния PDF файл
  4. Задайте правоъгълната област на страницата, от която да се извлича текст на всички страници
  5. Анализирайте всички срещания на текста в отговора на API и го покажете

Тези стъпки включват процеса на четене на PDF текст с Java RESTful Service. Заредете PDF файла в облачното хранилище и извикайте метода GetText(), за да извлечете всички срещания на текста от всички страници в заредения PDF файл от посочения правоъгълник на страницата. Прегледайте всички срещания в отговора и покажете номера на страницата и текста.

Код за извличане на текст от PDF с Java REST интерфейс

Този код демонстрира процеса за извличане на текст от PDF с Java REST интерфейс. Правоъгълната област се състои от долната лява x и y позиция и горната дясна x и y позиция, в които искате да извлечете текста. Ако трябва да извлечете текст от една страница, използвайте метода GetPageText(), който изисква номер на страница като допълнителен аргумент за избор на страницата.

Тази статия ни научи как да четем PDF файлове, без да използваме софтуер за четене на PDF файлове, инсталиран на вашата система. Ако искате да преброите броя на думите в PDF файл, вижте статията за Броене на думи в PDF документ с Java REST API.

 Български