Ten krótki samouczek wyjaśnia, jak wyodrębnić tekst z dokumentu PDF za pomocą interfejsu API REST C#. Nauczysz się wyodrębniać tekst z pliku PDF za pomocą interfejsu API opartego na C# .NET, używając zestawu SDK w chmurze opartego na .NET. Demonstruje cały proces, udostępniając przykładowy kod do odczytu i wyświetlania tekstu pliku PDF.
Warunek wstępny
Utwórz konto poświadczeń API wyodrębnij tekst z pliku PDF
Pobierać Aspose.PDF Cloud SDK for Dotnet to read a PDF file
Skonfiguruj projekt C# z powyższym zestawem SDK do pobierania tekstu
Kroki wyodrębniania tekstu PDF za pomocą C# Low Code API
- Skonfiguruj PdfApi, podając klucz aplikacji i SID, aby odczytać plik PDF
- Prześlij plik źródłowy PDF, aby wyodrębnić tekst
- Wywołaj metodę GetText() po pomyślnym przesłaniu pliku źródłowego PDF
- Ustaw prostokątny obszar strony, z którego tekst ma być pobierany na wszystkich stronach
- Przeanalizuj wszystkie wystąpienia tekstu w odpowiedzi API i wyświetl tekst
Te kroki obejmują proces odczytu tekstu PDF za pomocą usługi C# RESTful Service. Załaduj plik PDF do magazynu w chmurze i wywołaj metodę GetText(), aby pobrać wszystkie wystąpienia tekstu ze wszystkich stron w załadowanym pliku PDF z określonego prostokąta na stronie. Pochwal wszystkie wystąpienia w odpowiedzi i wyświetl numer strony i tekst.
Kod do pobierania tekstu z pliku PDF za pomocą interfejsu REST języka C#
using System; | |
using System.IO; | |
using Aspose.Pdf.Cloud.Sdk.Api; | |
using Aspose.Pdf.Cloud.Sdk.Model; | |
using System.Collections.Generic; | |
namespace Aspose.PDF.Cloud.Examples.Kb | |
{ | |
public class PdfTasks | |
{ | |
public static void ReadPdf() | |
{ | |
PdfApi pdfApi = new PdfApi("APP_KEY", "APP_SID"); | |
String fileName = "TextAndImages.pdf"; | |
try | |
{ | |
// Upload source file | |
FilesUploadResult result = pdfApi.UploadFile(fileName, new MemoryStream(File.ReadAllBytes(fileName))); | |
if (result.Errors.Count == 0) | |
{ | |
TextRectsResponse response = pdfApi.GetText(fileName, 0, 0, 500, 600); | |
foreach(var occurrence in response.TextOccurrences.List) | |
{ | |
Console.WriteLine($"Page:{occurrence.Page} Text:{occurrence.Text}"); | |
} | |
} | |
} | |
catch (Exception ex) | |
{ | |
Console.WriteLine("error:" + ex.Message + "\n" + ex.StackTrace); | |
} | |
} | |
} | |
} |
Ten kod demonstruje proces pobierania tekstu z pliku PDF za pomocą interfejsu C# REST. Obszar prostokątny składa się z dolnej lewej pozycji x i y oraz górnej prawej pozycji x i y, w której chcesz pobrać tekst. Jeśli musisz pobrać tekst z pojedynczej strony, użyj metody GetPageText(), która wymaga numeru strony jako dodatkowego argumentu do wybrania strony.
Ten artykuł nauczył nas czytać plik PDF bez użycia jakiegokolwiek oprogramowania do czytania PDF zainstalowanego w systemie. Jeśli chcesz policzyć liczbę słów w pliku PDF, zapoznaj się z artykułem na temat Zliczanie słów w dokumencie PDF za pomocą interfejsu API REST C#.