Command Palette
Search for a command to run...
Chandra: 고정밀 문서 OCR
GPU 컴퓨팅 에어드롭
1. 튜토리얼 소개

찬드라는 2025년 10월 Datalab-to 팀에서 개발한 고정밀 문서 OCR(광학 문자 인식) 시스템으로, 문서 레이아웃 인식 및 텍스트 추출에 중점을 두고 있습니다. 찬드라는 PDF 및 이미지 파일을 직접 처리하여 구조화된 텍스트, 마크다운, HTML 형식의 출력물을 생성하고, OCR 결과를 쉽게 확인할 수 있도록 시각적인 레이아웃 다이어그램을 제공합니다.
핵심 기능:
- 고정밀 OCR문서, 표, 다단 레이아웃에 최적화되어 있으며 복잡한 페이지 레이아웃을 지원합니다.
- 레이아웃 인식텍스트 블록, 표, 이미지 영역을 표시하여 시각적 레이아웃 다이어그램을 생성합니다.
- 다중 형식 출력마크다운, HTML 및 일반 텍스트 다운로드를 지원합니다.
- 간편한 배포Streamlit 인터페이스를 기반으로 하여 브라우저에서 빠른 상호 작용이 가능합니다.
- 경량 모델Transformers를 사용하면 vLLM에 대한 종속성을 추가할 필요 없이 모델을 직접 로드할 수 있습니다.
이 튜토리얼에서는 Streamlit을 사용하여 "RTX_5090" 컴퓨팅 리소스로 Chandra OCR 코어 모델을 배포함으로써 빠른 문서 추론 및 레이아웃 시각화를 구현합니다.
2. 효과 표시



찬드라는 핵심 임무를 매우 훌륭하게 수행했습니다.
- 단일 페이지 문서 OCRPDF 또는 이미지에서 고정밀 텍스트 및 마크다운을 생성합니다.
- 레이아웃 감지이 기능은 텍스트 블록, 표, 이미지와 같은 영역을 정확하게 식별하고 레이아웃 시각화를 지원합니다.
- 여러 페이지로 구성된 문서 지원이 프로그램은 PDF 파일을 페이지 단위로 처리할 수 있으며, 페이지 번호는 1부터 시작하여 범위를 벗어난 오류를 방지합니다.
- 마크다운 및 HTML 출력OCR 결과를 마크다운 또는 HTML에 자동으로 삽입하고 다운로드를 지원합니다.
- 시각적 레이아웃 다이어그램OCR 정확도 검증을 용이하게 하기 위해 주석이 달린 텍스트 영역의 PIL 이미지를 생성합니다.
3. 작업 단계
1. 컨테이너를 시작하거나 로컬에서 실행합니다.
컨테이너를 시작한 후 API 주소를 클릭하여 웹 인터페이스에 접속하세요.

2. 사용자 가이드
"Bad Gateway" 메시지가 표시되면 모델이 초기화 중이라는 의미입니다. 1~2분 정도 기다린 후 페이지를 새로고침해 주세요.
힌트페이지에 "Load_model() 실행 중"이라는 메시지가 표시되면 모델이 초기화되고 있는 것입니다. 1~2분 정도 기다린 후 페이지를 새로고침해 주세요.

