이 짧은 튜토리얼에서는 Node.js REST API를 사용하여 PDF 문서에서 텍스트를 추출하는 방법을 설명합니다. Node.js 기반 Cloud SDK를 사용하여 Node.js 기반 API를 사용하여 PDF에서 텍스트를 추출하는 방법을 배우게 됩니다. PDF 텍스트를 읽고 표시하는 샘플 코드를 통해 전체 과정을 보여줍니다.
필수 조건
- 계정 API 자격 증명을 생성하세요 PDF에서 텍스트 추출
- PDF 파일을 읽으려면 Node.js용 Aspose.PDF 클라우드 SDK을 다운로드하세요.
- 위 SDK를 사용하여 텍스트를 가져오기 위한 Node.js 프로젝트 설정
Node.js Low Code API를 사용하여 PDF 텍스트를 추출하는 단계
- PDF 파일을 읽기 위해 애플리케이션 키와 SID를 제공하여 PdfApi를 구성합니다.
- 텍스트 추출을 위한 원본 PDF 파일 업로드
- 소스 PDF 파일을 성공적으로 업로드하면 GetText() 메서드를 호출합니다.
- 모든 페이지에서 텍스트를 가져올 페이지의 직사각형 영역을 설정합니다.
- API 응답에서 텍스트의 모든 발생을 구문 분석하고 텍스트를 표시합니다.
이 단계는 Node.js RESTful 서비스로 PDF 텍스트를 읽는 과정을 포함합니다. PDF 파일을 클라우드 스토리지에 로드하고 GetText() 메서드를 호출하여 로드된 PDF 파일의 모든 페이지에서 지정된 사각형 영역부터 해당 텍스트를 모두 가져옵니다. 응답에서 모든 텍스트를 칭찬하고 페이지 번호와 텍스트를 표시합니다.
Node.js REST 인터페이스를 사용하여 PDF에서 텍스트를 가져오는 코드
이 코드는 Node.js REST 인터페이스를 사용하여 PDF에서 텍스트를 가져오는 과정을 보여줍니다. 직사각형 영역은 텍스트를 가져올 왼쪽 하단 x 및 y 위치와 오른쪽 상단 x 및 y 위치로 구성됩니다. 단일 페이지에서 텍스트를 가져와야 하는 경우, 페이지를 선택하기 위해 추가 인수로 페이지 번호를 필요로 하는 GetPageText() 메서드를 사용하세요.
이 글에서는 시스템에 설치된 PDF 읽기 소프트웨어를 사용하지 않고 PDF 파일을 읽는 방법을 알려드렸습니다. PDF 파일의 단어 수를 세어 보려면 Node.js REST API를 사용하여 PDF 문서의 단어 개수 세기에 대한 글을 참조하세요.