Extrahujte text z dokumentu Word pomocí NET REST API

Tento článek popisuje, jak extrahovat text z dokumentu Word pomocí NET REST API. Naučíte se automaticky extrahovat text ze souboru aplikace Word pomocí C# Low Code API definováním začátku a konce textu, který chcete načíst z načteného souboru aplikace Word. Parametry rozsahu můžete nastavit různými způsoby popsanými v tomto článku.

Předpoklad

Kroky k extrahování konkrétního textu z dokumentu Word pomocí NET REST API

  1. Vytvořte objekt třídy WordsApi pro extrahování rozsahu textu ze souboru aplikace Word
  2. Vytvořte instanci objektu GetRangeTextOnlineRequest a načtěte do něj obsah vstupního souboru aplikace Word
  3. Nastavením parametrů rozsahu v objektu požadavku definujte začátek a konec rozsahu textu
  4. Chcete-li extrahovat rozsah textu, zavolejte metodu GetRangeTextOnline
  5. Zobrazte text z odpovědi vrácené voláním API

Výše uvedené kroky popisují proces extrakce textu z DOC pomocí C# Low Code API. Začněte proces vytvořením objektu třídy WordsApi pomocí ID klienta a tajného klíče a iniciujte objekt požadavku pomocí třídy GetRangeTextOnlineRequest. Vyplňte parametry pro definování rozsahu textu a použijte jej při volání metody GetRangeTextOnline(), která načítá data ze zdrojového souboru.

Kód pro extrahování textu z DOCX pomocí C# REST API

using System.IO;
using Aspose.Words.Cloud.Sdk;
using Aspose.Words.Cloud.Sdk.Model;
using Aspose.Words.Cloud.Sdk.Model.Requests;
namespace WordsSample.Words
{
public class WordFileOperations
{
public void ExtractTextRange()
{
var wordsApi = new WordsApi("client id", "client secret");// For fetching text
var request = new GetRangeTextOnlineRequest();
request.Document = File.OpenRead("Sample.docx");
request.RangeStartIdentifier = "page0";
request.RangeEndIdentifier = "page0:end";
var task = wordsApi.GetRangeTextOnline(request);
task.Wait();
var result = task.Result;
System.Console.WriteLine(result.Text);
}
}
}

Tento kód ukazuje jak extrahovat text z dokumentu Word pomocí C# REST API. GetRangeTextOnlineRequest obsahuje parametry RangeStartIdentifier a RangeEndIdentifier, které lze použít k nastavení rozsahu textu, který chcete načíst a uložit do řetězcové proměnné. Použijte identifikátory rozsahu, jako je page3 ukazuje číslo stránky 3, page3:end ukazuje konec stránky 3 a document:end ukazuje konec dokumentu.

Tento článek nás naučil, jak definovat rozsah textu na stránkách a uložit jej do proměnné řetězce. Chcete-li uložit stránku v souboru aplikace Word do obrázku, přečtěte si následující článek: Převeďte Word Page na obrázek pomocí NET REST API.

 Čeština