Տեքստի արդյունահանում PDF փաստաթղթից՝ օգտագործելով Java REST API-ը

Այս կարճ ձեռնարկը բացատրում է, թե ինչպես արտահանել տեքստ PDF փաստաթղթից Java REST API-ի միջոցով: Դուք կսովորեք արտահանել տեքստ PDF ֆայլից Java-ի վրա հիմնված API-ի միջոցով՝ օգտագործելով Java-ի վրա հիմնված Cloud SDK: Այն ցույց է տալիս ամբողջական գործընթացը՝ կիսվելով PDF տեքստը կարդալու և ցուցադրելու համար նախատեսված կոդի նմուշով:

Նախապայման

Քայլեր՝ PDF տեքստը Java Low Code API-ի միջոցով արդյունահանելու համար

  1. Կարգավորեք PdfApi-ը՝ տրամադրելով ծրագրի բանալին և SID-ը՝ PDF ֆայլը կարդալու համար։
  2. Վերբեռնեք սկզբնաղբյուր PDF ֆայլը՝ տեքստը հանելու համար
  3. Աղբյուրի PDF ֆայլի հաջող վերբեռնումից հետո կանչել ՍտանալՏեքստը() մեթոդը
  4. Սահմանեք էջի ուղղանկյուն տարածքը, որտեղից պետք է տեքստը վերցվի բոլոր էջերում։
  5. Վերլուծել API պատասխանում տեքստի բոլոր դեպքերը և ցուցադրել տեքստը։

Այս քայլերը ներառում են PDF տեքստը Java RESTful ծառայության միջոցով կարդալու գործընթացը: Բեռնեք PDF ֆայլը ամպային պահեստում և կանչեք GetText() մեթոդը՝ էջի նշված ուղղանկյան միջոցով բեռնված PDF ֆայլի բոլոր էջերից տեքստի բոլոր դեպքերը ստանալու համար: Գնահատեք պատասխանի բոլոր դեպքերը և ցուցադրեք էջի համարը և տեքստը:

Կոդ՝ PDF ֆայլից տեքստ վերցնելու համար՝ Java REST ինտերֆեյսի միջոցով

Այս կոդը ցույց է տալիս Java REST Interface-ի միջոցով PDF ֆայլից տեքստ ստանալու գործընթացը: Ուղղանկյուն տարածքը բաղկացած է ստորին ձախ x և y դիրքերից և վերին աջ x և y դիրքերից, որոնց սահմաններում դուք ցանկանում եք ստանալ տեքստը: Եթե ձեզ անհրաժեշտ է տեքստը ստանալ մեկ էջից, օգտագործեք GetPageText() մեթոդը, որը էջի համարը պահանջում է որպես լրացուցիչ արգումենտ՝ էջը ընտրելու համար:

Այս հոդվածը մեզ սովորեցրել է կարդալ PDF ֆայլը՝ առանց ձեր համակարգում տեղադրված որևէ PDF կարդացող ծրագրի օգտագործման։ Եթե ցանկանում եք հաշվել PDF ֆայլի բառերի քանակը, դիմեք Հաշվեք բառերը PDF փաստաթղթում Java REST API-ի միջոցով հոդվածին։

 Հայերեն