Εξαγωγή κειμένου από έγγραφο PDF με το Java REST API

Αυτό το σύντομο σεμινάριο εξηγεί πώς να εξάγετε κείμενο από έγγραφο PDF με το Java REST API. Θα μάθετε να εξάγετε κείμενο από PDF με API που βασίζεται σε Java χρησιμοποιώντας ένα Cloud SDK που βασίζεται σε Java. Δείχνει την πλήρη διαδικασία κοινοποιώντας ένα δείγμα κώδικα για την ανάγνωση και την εμφάνιση του κειμένου PDF.

Προαπαιτούμενο

Βήματα για την εξαγωγή κειμένου PDF με το Java Low Code API

  1. Ρυθμίστε το PdfApi παρέχοντας το κλειδί εφαρμογής και το SID για να διαβάσετε το αρχείο PDF
  2. Ανεβάστε το αρχείο PDF πηγής για την εξαγωγή του κειμένου
  3. Καλέστε τη μέθοδο Λήψηκειμένου() μετά την επιτυχή μεταφόρτωση του αρχείου PDF προέλευσης
  4. Ορίστε την ορθογώνια περιοχή της σελίδας από την οποία θα γίνεται η ανάκτηση κειμένου σε όλες τις σελίδες
  5. Ανάλυση όλων των εμφανίσεων του κειμένου στην απόκριση API και εμφάνιση του κειμένου

Αυτά τα βήματα περιλαμβάνουν τη διαδικασία ανάγνωσης κειμένου PDF με την υπηρεσία Java RESTful. Φορτώστε το αρχείο PDF στον χώρο αποθήκευσης Cloud και καλέστε τη μέθοδο GetText() για να ανακτήσετε όλες τις εμφανίσεις του κειμένου από όλες τις σελίδες του φορτωμένου αρχείου PDF από το καθορισμένο ορθογώνιο στη σελίδα. Επαινέστε όλες τις εμφανίσεις στην απάντηση και εμφανίστε τον αριθμό σελίδας και το κείμενο.

Κώδικας για λήψη κειμένου από PDF με διεπαφή Java REST

Αυτός ο κώδικας παρουσιάζει τη διαδικασία ανάκτησης κειμένου από PDF με Java REST Interface. Η ορθογώνια περιοχή αποτελείται από την κάτω αριστερή θέση x και y και την επάνω δεξιά θέση x και y εντός της οποίας θέλετε να ανακτήσετε το κείμενο. Εάν χρειάζεται να ανακτήσετε κείμενο από μία μόνο σελίδα, χρησιμοποιήστε τη μέθοδο GetPageText() που απαιτεί έναν αριθμό σελίδας ως πρόσθετο όρισμα για την επιλογή της σελίδας.

Αυτό το άρθρο μας δίδαξε πώς να διαβάζουμε το αρχείο PDF χωρίς να χρησιμοποιούμε κανένα λογισμικό ανάγνωσης PDF που είναι εγκατεστημένο στο σύστημά σας. Αν θέλετε να μετρήσετε τον αριθμό των λέξεων σε ένα αρχείο PDF, ανατρέξτε στο άρθρο σχετικά με το Καταμέτρηση λέξεων σε έγγραφο PDF με το Java REST API.

 Ελληνικά