Wyodrębnij tekst z dokumentu PDF za pomocą interfejsu API REST C#

Ten krótki samouczek wyjaśnia, jak wyodrębnić tekst z dokumentu PDF za pomocą interfejsu API REST C#. Nauczysz się wyodrębniać tekst z pliku PDF za pomocą interfejsu API opartego na C# .NET, używając zestawu SDK w chmurze opartego na .NET. Demonstruje cały proces, udostępniając przykładowy kod do odczytu i wyświetlania tekstu pliku PDF.

Warunek wstępny

Kroki wyodrębniania tekstu PDF za pomocą C# Low Code API

  1. Skonfiguruj PdfApi, podając klucz aplikacji i SID, aby odczytać plik PDF
  2. Prześlij plik źródłowy PDF, aby wyodrębnić tekst
  3. Wywołaj metodę GetText() po pomyślnym przesłaniu pliku źródłowego PDF
  4. Ustaw prostokątny obszar strony, z którego tekst ma być pobierany na wszystkich stronach
  5. Przeanalizuj wszystkie wystąpienia tekstu w odpowiedzi API i wyświetl tekst

Te kroki obejmują proces odczytu tekstu PDF za pomocą usługi C# RESTful Service. Załaduj plik PDF do magazynu w chmurze i wywołaj metodę GetText(), aby pobrać wszystkie wystąpienia tekstu ze wszystkich stron w załadowanym pliku PDF z określonego prostokąta na stronie. Pochwal wszystkie wystąpienia w odpowiedzi i wyświetl numer strony i tekst.

Kod do pobierania tekstu z pliku PDF za pomocą interfejsu REST języka C#

Ten kod demonstruje proces pobierania tekstu z pliku PDF za pomocą interfejsu C# REST. Obszar prostokątny składa się z dolnej lewej pozycji x i y oraz górnej prawej pozycji x i y, w której chcesz pobrać tekst. Jeśli musisz pobrać tekst z pojedynczej strony, użyj metody GetPageText(), która wymaga numeru strony jako dodatkowego argumentu do wybrania strony.

Ten artykuł nauczył nas czytać plik PDF bez użycia jakiegokolwiek oprogramowania do czytania PDF zainstalowanego w systemie. Jeśli chcesz policzyć liczbę słów w pliku PDF, zapoznaj się z artykułem na temat Zliczanie słów w dokumencie PDF za pomocą interfejsu API REST C#.

 Polski