Extrahera text från PDF-dokument med Java REST API

Den här korta handledningen förklarar hur man extraherar text från ett PDF-dokument med Java REST API. Du kommer att lära dig att extrahera text från PDF med ett Java-baserat API med hjälp av ett Java-baserat Cloud SDK. Den demonstrerar hela processen genom att dela en exempelkod för att läsa och visa PDF-texten.

Nödvändig förutsättning

Steg för att extrahera PDF-text med Java Low Code API

  1. Konfigurera PdfApi genom att ange programnyckeln och SID:t för att läsa PDF-filen
  2. Ladda upp käll-PDF-filen för att extrahera texten
  3. Anropa metoden GetText() när käll-PDF-filen har laddats upp
  4. Ange det rektangulära området på sidan från vilket text ska hämtas på alla sidor
  5. Analysera alla förekomster av texten i API-svaret och visa texten

Dessa steg innefattar processen att läsa PDF-text med Java RESTful Service. Ladda PDF-filen till molnlagringen och anropa GetText()-metoden för att hämta alla förekomster av texten från alla sidor i den laddade PDF-filen från den angivna rektangeln på sidan. Gå igenom alla förekomster i svaret och visa sidnummer och text.

Kod för att hämta text från PDF med Java REST-gränssnitt

Den här koden demonstrerar processen för att hämta text från PDF med Java REST Interface. Det rektangulära området består av x- och y-positionerna längst ner till vänster och x- och y-positionerna längst upp till höger, inom vilka du vill hämta texten. Om du behöver hämta text från en enda sida använder du metoden GetPageText() som kräver ett sidnummer som ett ytterligare argument för att välja sidan.

Den här artikeln har lärt oss att läsa PDF-filer utan att använda någon PDF-läsningsprogramvara installerad på systemet. Om du vill räkna antalet ord i en PDF-fil kan du läsa artikeln om Räkna ord i PDF-dokument med Java REST API.

 Svenska