HyperAIHyperAI

Command Palette

Search for a command to run...

Chandra: 고정밀 문서 OCR

날짜

5달 전

태그

라이선스

Apache 2.0

GPU 컴퓨팅 에어드롭

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)
지금 사용하기

1. 튜토리얼 소개

짓다
모델 라이선스: OpenRAIL

찬드라는 2025년 10월 Datalab-to 팀에서 개발한 고정밀 문서 OCR(광학 문자 인식) 시스템으로, 문서 레이아웃 인식 및 텍스트 추출에 중점을 두고 있습니다. 찬드라는 PDF 및 이미지 파일을 직접 처리하여 구조화된 텍스트, 마크다운, HTML 형식의 출력물을 생성하고, OCR 결과를 쉽게 확인할 수 있도록 시각적인 레이아웃 다이어그램을 제공합니다.

핵심 기능:

  • 고정밀 OCR문서, 표, 다단 레이아웃에 최적화되어 있으며 복잡한 페이지 레이아웃을 지원합니다.
  • 레이아웃 인식텍스트 블록, 표, 이미지 영역을 표시하여 시각적 레이아웃 다이어그램을 생성합니다.
  • 다중 형식 출력마크다운, HTML 및 일반 텍스트 다운로드를 지원합니다.
  • 간편한 배포Streamlit 인터페이스를 기반으로 하여 브라우저에서 빠른 상호 작용이 가능합니다.
  • 경량 모델Transformers를 사용하면 vLLM에 대한 종속성을 추가할 필요 없이 모델을 직접 로드할 수 있습니다.

이 튜토리얼에서는 Streamlit을 사용하여 "RTX_5090" 컴퓨팅 리소스로 Chandra OCR 코어 모델을 배포함으로써 빠른 문서 추론 및 레이아웃 시각화를 구현합니다.

2. 효과 표시

찬드라는 핵심 임무를 매우 훌륭하게 수행했습니다.

  • 단일 페이지 문서 OCRPDF 또는 이미지에서 고정밀 텍스트 및 마크다운을 생성합니다.
  • 레이아웃 감지이 기능은 텍스트 블록, 표, 이미지와 같은 영역을 정확하게 식별하고 레이아웃 시각화를 지원합니다.
  • 여러 페이지로 구성된 문서 지원이 프로그램은 PDF 파일을 페이지 단위로 처리할 수 있으며, 페이지 번호는 1부터 시작하여 범위를 벗어난 오류를 방지합니다.
  • 마크다운 및 HTML 출력OCR 결과를 마크다운 또는 HTML에 자동으로 삽입하고 다운로드를 지원합니다.
  • 시각적 레이아웃 다이어그램OCR 정확도 검증을 용이하게 하기 위해 주석이 달린 텍스트 영역의 PIL 이미지를 생성합니다.

3. 작업 단계

1. 컨테이너를 시작하거나 로컬에서 실행합니다.

컨테이너를 시작한 후 API 주소를 클릭하여 웹 인터페이스에 접속하세요.

2. 사용자 가이드

"Bad Gateway" 메시지가 표시되면 모델이 초기화 중이라는 의미입니다. 1~2분 정도 기다린 후 페이지를 새로고침해 주세요.

힌트페이지에 "Load_model() 실행 중"이라는 메시지가 표시되면 모델이 초기화되고 있는 것입니다. 1~2분 정도 기다린 후 페이지를 새로고침해 주세요.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp