本简短教程介绍如何使用 C# REST API 从 PDF 文档中提取文本。您将学习使用基于 .NET 的 Cloud SDK 使用基于 C# .NET 的 API 从 PDF 中提取文本。它通过共享用于读取和显示 PDF 文本的示例代码来演示完整的过程。
先决条件
创建账户 API 凭证 从 PDF 中提取文本
下载 Aspose.PDF Cloud SDK for Dotnet to read a PDF file
使用上述 SDK 设置 C# 项目以获取文本
使用 C# Low Code API 提取 PDF 文本的步骤
- 通过提供应用程序密钥和 SID 来配置 PdfApi 以读取 PDF 文件
- 上传用于提取文本的源 PDF 文件
- 成功上传源 PDF 文件后调用 GetText() 方法
- 设置要从中获取所有页面上的文本的矩形区域
- 解析 API 响应中出现的所有文本并显示文本
这些步骤涉及使用 C# RESTful 服务读取 PDF 文本的过程。将 PDF 文件加载到云存储中,然后调用 GetText() 方法从页面上指定的矩形区域中提取已加载 PDF 文件的所有页面中出现的文本。在响应中浏览所有出现的文本并显示页码和文本。
使用 C# REST 接口从 PDF 中抓取文本的代码
using System; | |
using System.IO; | |
using Aspose.Pdf.Cloud.Sdk.Api; | |
using Aspose.Pdf.Cloud.Sdk.Model; | |
using System.Collections.Generic; | |
namespace Aspose.PDF.Cloud.Examples.Kb | |
{ | |
public class PdfTasks | |
{ | |
public static void ReadPdf() | |
{ | |
PdfApi pdfApi = new PdfApi("APP_KEY", "APP_SID"); | |
String fileName = "TextAndImages.pdf"; | |
try | |
{ | |
// Upload source file | |
FilesUploadResult result = pdfApi.UploadFile(fileName, new MemoryStream(File.ReadAllBytes(fileName))); | |
if (result.Errors.Count == 0) | |
{ | |
TextRectsResponse response = pdfApi.GetText(fileName, 0, 0, 500, 600); | |
foreach(var occurrence in response.TextOccurrences.List) | |
{ | |
Console.WriteLine($"Page:{occurrence.Page} Text:{occurrence.Text}"); | |
} | |
} | |
} | |
catch (Exception ex) | |
{ | |
Console.WriteLine("error:" + ex.Message + "\n" + ex.StackTrace); | |
} | |
} | |
} | |
} |
此代码演示了使用 C# REST 接口从 PDF 中检索文本的过程。矩形区域由您要在其中获取文本的左下角 x 和 y 位置以及右上角 x 和 y 位置组成。如果您需要从单个页面获取文本,请使用 GetPageText() 方法,该方法需要页码作为附加参数来选择页面。
本文教我们如何在不使用系统上安装的任何 PDF 阅读软件的情况下阅读 PDF 文件。如果您想计算 PDF 文件中的字数,请参阅 使用 C# REST API 统计 PDF 文档中的字数 上的文章。