В этом кратком руководстве объясняется, как извлечь текст из документа PDF с помощью C# REST API. Вы научитесь извлекать текст из PDF с помощью C# .NET-based API, используя Cloud SDK на основе .NET. Он демонстрирует весь процесс, предоставляя пример кода для чтения и отображения текста PDF.
Необходимое условие
Создать учетные данные API учетной записи извлечь текст из PDF
Скачать Aspose.PDF Cloud SDK for Dotnet to read a PDF file
Настройка проекта C# с указанным выше SDK для извлечения текста
Шаги по извлечению текста PDF с помощью C# Low Code API
- Настройте PdfApi, указав ключ приложения и SID для чтения PDF-файла.
- Загрузите исходный PDF-файл для извлечения текста
- Вызовите метод GetText() после успешной загрузки исходного PDF-файла.
- Установите прямоугольную область страницы, из которой будет извлекаться текст на всех страницах.
- Проанализировать все вхождения текста в ответе API и отобразить текст
Эти шаги влекут за собой процесс чтения текста PDF с помощью C# RESTful Service. Загрузите файл PDF в хранилище Cloud и вызовите метод GetText(), чтобы извлечь все вхождения текста со всех страниц загруженного файла PDF из указанного прямоугольника на странице. Просмотрите все вхождения в ответе и отобразите номер страницы и текст.
Код для извлечения текста из PDF с помощью интерфейса C# REST
using System; | |
using System.IO; | |
using Aspose.Pdf.Cloud.Sdk.Api; | |
using Aspose.Pdf.Cloud.Sdk.Model; | |
using System.Collections.Generic; | |
namespace Aspose.PDF.Cloud.Examples.Kb | |
{ | |
public class PdfTasks | |
{ | |
public static void ReadPdf() | |
{ | |
PdfApi pdfApi = new PdfApi("APP_KEY", "APP_SID"); | |
String fileName = "TextAndImages.pdf"; | |
try | |
{ | |
// Upload source file | |
FilesUploadResult result = pdfApi.UploadFile(fileName, new MemoryStream(File.ReadAllBytes(fileName))); | |
if (result.Errors.Count == 0) | |
{ | |
TextRectsResponse response = pdfApi.GetText(fileName, 0, 0, 500, 600); | |
foreach(var occurrence in response.TextOccurrences.List) | |
{ | |
Console.WriteLine($"Page:{occurrence.Page} Text:{occurrence.Text}"); | |
} | |
} | |
} | |
catch (Exception ex) | |
{ | |
Console.WriteLine("error:" + ex.Message + "\n" + ex.StackTrace); | |
} | |
} | |
} | |
} |
Этот код демонстрирует процесс извлечения текста из PDF с помощью интерфейса C# REST. Прямоугольная область состоит из нижней левой позиции x и y и верхней правой позиции x и y, в пределах которой вы хотите извлечь текст. Если вам нужно извлечь текст с одной страницы, используйте метод GetPageText(), который требует номер страницы в качестве дополнительного аргумента для выбора страницы.
Эта статья научила нас читать PDF-файл без использования программного обеспечения для чтения PDF-файлов, установленного в вашей системе. Если вы хотите подсчитать количество слов в PDF-файле, обратитесь к статье Подсчет слов в PDF-документе с помощью C# REST API.