HyperAI

최근 dots.ocr이라는 모델이 독특한 경량 설계와 정밀한 텍스트 추출 기능으로 OCR 기술 분야에서 큰 인기를 얻고 있습니다. dots.ocr은 샤오홍슈의 hi lab에서 2025년 8월에 발표한 다국어 문서 레이아웃 구문 분석 모델입니다.이 모델은 통합된 방식으로 레이아웃 감지와 콘텐츠 인식을 수행할 수 있는 17억 개의 매개변수 시각 언어 모델(VLM)을 기반으로 합니다.흐릿한 스캔본이든, 기울어진 휴대폰 스냅샷이든, 저해상도 스크린샷이든 dots.ocr은 적응형 노이즈 감소 알고리즘과 동적 분할 기술을 통해 조각난 텍스트 정보를 정확하게 캡처할 수 있습니다.2B 미만의 모델 크기를 갖춘 마이크로 아키텍처를 통해 산업 장비, 모바일 단말기, 심지어 임베디드 시스템까지도 클라우드 종속성에서 완전히 벗어나 밀리초 수준의 실시간 텍스트 인식을 구현할 수 있습니다..

특히 dots.ocr은 기존 OCR의 구조화된 문서 의존성을 획기적으로 개선합니다. 다중 스케일 특징 융합 메커니즘과 문맥적 의미 오류 수정을 통합함으로써, 이 모델은 엉성한 손글씨, 밀도 높은 표 형식 데이터 또는 혼합 조판 텍스트를 인식할 때 사람이 읽는 것과 유사한 일관성과 정확도를 유지합니다. 또한,다국어 문서 처리 측면에서는 중국어, 영어 등 100여 개 언어를 지원하며, 다국어 문서의 텍스트 내용과 레이아웃 요소를 정확하게 식별하여 처리할 수 있습니다.다국어 문서든 복잡한 언어 환경이든, dots.ocr은 안정적이고 정확한 구문 분석 결과를 제공합니다. OmniDocBench와 같은 벤치마크에서 dots.ocr의 수식 인식 성능은 Doubao-1.5 및 Gemini2.5-Pro와 같은 대형 모델에 필적합니다. 소수 언어 구문 분석에서 상당한 이점을 보여주며, "작지만 정밀함"이라는 목표를 진정으로 달성합니다.

현재,dots.ocr: 다국어 문서 구문 분석 모델HyperAI 공식 웹사이트의 "튜토리얼" 섹션에 업로드되었습니다. 아래 링크를 클릭하면 클릭 한 번으로 배포할 수 있습니다.

튜토리얼 링크:

https://go.hyper.ai/49mZU

데모 실행

1. hyper.ai 홈페이지에서 튜토리얼 페이지를 선택하고 dots.ocr: 다국어 문서 구문 분석 모델을 선택한 후, 이 튜토리얼을 온라인으로 실행을 클릭합니다.

2. 페이지가 이동한 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

3. "NVIDIA GeForce RTX 4090" 및 "PyTorch" 이미지를 선택하고 필요에 따라 "Pay as you go" 또는 "Daily/Weekly/Monthly Package"를 선택한 후 "Continue"를 클릭하세요. 신규 사용자는 아래 초대 링크를 통해 등록하시면 RTX 4090 4시간 + CPU 무료 사용 시간 5시간을 받으실 수 있습니다!

HyperAI 독점 초대 링크(복사하여 브라우저에서 열기):

https://openbayes.com/console/signup?r=Ada0322_NR0n