Java REST API के साथ PDF दस्तावेज़ से टेक्स्ट निकालें

यह संक्षिप्त ट्यूटोरियल बताता है कि Java REST API का उपयोग करके PDF दस्तावेज़ से टेक्स्ट कैसे निकाला जाता है। आप Java-आधारित क्लाउड SDK का उपयोग करके Java-आधारित API के साथ PDF से टेक्स्ट निकालना सीखेंगे। यह PDF टेक्स्ट को पढ़ने और प्रदर्शित करने के लिए एक नमूना कोड साझा करके पूरी प्रक्रिया को प्रदर्शित करता है।

पूर्वापेक्षा

जावा लो कोड एपीआई के साथ पीडीएफ टेक्स्ट निकालने के चरण

  1. PDF फ़ाइल पढ़ने के लिए एप्लिकेशन कुंजी और SID प्रदान करके PdfApi को कॉन्फ़िगर करें
  2. पाठ निकालने के लिए स्रोत PDF फ़ाइल अपलोड करें
  3. स्रोत PDF फ़ाइल के सफलतापूर्वक अपलोड होने पर गेटटेक्स्ट() विधि को कॉल करें
  4. पृष्ठ का वह आयताकार क्षेत्र सेट करें जहाँ से सभी पृष्ठों पर पाठ लाया जाना है
  5. API प्रतिक्रिया में पाठ की सभी घटनाओं को पार्स करें और पाठ प्रदर्शित करें

इन चरणों में Java RESTful सेवा के साथ PDF पाठ पढ़ने की प्रक्रिया शामिल है। PDF फ़ाइल को क्लाउड स्टोरेज में लोड करें और पृष्ठ पर निर्दिष्ट आयत से लोड की गई PDF फ़ाइल के सभी पृष्ठों से पाठ की सभी घटनाओं को प्राप्त करने के लिए GetText() विधि को कॉल करें। प्रतिक्रिया में सभी घटनाओं को देखें और पृष्ठ संख्या और पाठ प्रदर्शित करें।

जावा REST इंटरफ़ेस के साथ PDF से टेक्स्ट प्राप्त करने का कोड

यह कोड Java REST इंटरफ़ेस का उपयोग करके PDF से टेक्स्ट प्राप्त करने की प्रक्रिया को दर्शाता है। आयताकार क्षेत्र में निचले बाएँ x और y स्थान और ऊपरी दाएँ x और y स्थान शामिल हैं, जहाँ आप टेक्स्ट प्राप्त करना चाहते हैं। यदि आपको किसी एक पृष्ठ से टेक्स्ट प्राप्त करना है, तो GetPageText() विधि का उपयोग करें, जिसके लिए पृष्ठ का चयन करने के लिए एक अतिरिक्त तर्क के रूप में पृष्ठ संख्या की आवश्यकता होती है।

इस लेख में हमने आपके सिस्टम पर इंस्टॉल किए गए किसी भी पीडीएफ रीडिंग सॉफ्टवेयर का इस्तेमाल किए बिना पीडीएफ फाइल पढ़ना सिखाया है। अगर आप पीडीएफ फाइल में शब्दों की संख्या गिनना चाहते हैं, तो Java REST API के साथ PDF दस्तावेज़ में शब्दों की गणना करें पर दिए गए लेख को देखें।

 हिन्दी