Command Palette
Search for a command to run...
dots.ocr: 다국어 문서 구문 분석 모델
GPU 컴퓨팅 에어드롭
1. 튜토리얼 소개
dots.ocr은 2025년 8월 샤오홍슈(Xiaohongshu)의 hi 랩에서 발표한 다국어 문서 레이아웃 파싱 모델입니다. 17억 개의 매개변수를 가진 시각 언어 모델(VLM)을 기반으로 하는 이 모델은 레이아웃 감지와 콘텐츠 인식을 통합하여 정확한 읽기 순서를 유지합니다. 작은 크기에도 불구하고, 이 모델은 OmniDocBench와 같은 벤치마크에서 탁월한 결과를 달성하는 등 최첨단 성능을 자랑합니다. Doubao-1.5 및 Gemini2.5-Pro와 같은 대형 모델의 수식 인식 성능과 견줄 만하며, 소수 언어 파싱에 상당한 이점을 제공합니다. dots.ocr은 간단하고 효율적인 아키텍처를 제공하며, 입력 프롬프트만 변경하여 작업을 전환할 수 있습니다. 빠른 추론 속도 덕분에 다양한 문서 파싱 시나리오에 적합합니다.
이 튜토리얼에서는 리소스로 단일 RTX 5090 카드를 사용합니다.
2. 프로젝트 예시
수식 문서 예

테이블 문서 예시

다국어 문서 예시



3. 작업 단계
1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

매개변수 설명
- 프롬프트 선택:
- layout_all_en: 이미지의 모든 텍스트를 인식하고 원래 레이아웃 구조를 보존합니다.
- layout_only_en: 이미지에서 영어 텍스트만 인식하고 다른 언어는 무시합니다.
- OCR: 구조를 보존하지 않고 이미지 속의 텍스트를 인식합니다.
- 고급 설정:
- 이미지에 fitz_preprocess 활성화: 이미지에 fitz_preprocess를 활성화할지 여부를 설정합니다. 이미지 DPI가 낮은 경우 권장됩니다.
- 최소 픽셀: 이미지의 최소 픽셀 수로, 너무 작은 이미지를 필터링하는 데 사용됩니다.
- 최대 픽셀: 이미지의 최대 픽셀 수로, 너무 큰 이미지를 필터링하는 데 사용됩니다.