dots.ocr: 다국어 문서 구문 분석 모델

1. 튜토리얼 소개

dots.ocr은 2025년 8월 샤오홍슈(Xiaohongshu)의 hi 랩에서 발표한 다국어 문서 레이아웃 파싱 모델입니다. 17억 개의 매개변수를 가진 시각 언어 모델(VLM)을 기반으로 하는 이 모델은 레이아웃 감지와 콘텐츠 인식을 통합하여 정확한 읽기 순서를 유지합니다. 작은 크기에도 불구하고, 이 모델은 OmniDocBench와 같은 벤치마크에서 탁월한 결과를 달성하는 등 최첨단 성능을 자랑합니다. Doubao-1.5 및 Gemini2.5-Pro와 같은 대형 모델의 수식 인식 성능과 견줄 만하며, 소수 언어 파싱에 상당한 이점을 제공합니다. dots.ocr은 간단하고 효율적인 아키텍처를 제공하며, 입력 프롬프트만 변경하여 작업을 전환할 수 있습니다. 빠른 추론 속도 덕분에 다양한 문서 파싱 시나리오에 적합합니다.

이 튜토리얼에서는 단일 RTX 4090 카드에 대한 리소스를 사용합니다.

2. 프로젝트 예시

수식 문서 예

테이블 문서 예시

다국어 문서 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

매개변수 설명

  • 프롬프트 선택:
    • layout_all_en: 이미지의 모든 텍스트를 인식하고 원래 레이아웃 구조를 보존합니다.
    • layout_only_en: 이미지에서 영어 텍스트만 인식하고 다른 언어는 무시합니다.
    • OCR: 구조를 보존하지 않고 이미지 속의 텍스트를 인식합니다.
  • 고급 설정:
    • 이미지에 fitz_preprocess 활성화: 이미지에 fitz_preprocess를 활성화할지 여부를 설정합니다. 이미지 DPI가 낮은 경우 권장됩니다.
    • 최소 픽셀: 이미지의 최소 픽셀 수로, 너무 작은 이미지를 필터링하는 데 사용됩니다.
    • 최대 픽셀: 이미지의 최대 픽셀 수로, 너무 큰 이미지를 필터링하는 데 사용됩니다.

4. 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓