날짜

9달 전

태그

OCR

RTX 5090

라이선스

MIT

GitHub

rednote-hilab/dots.ocr9.0k

1. 튜토리얼 소개

dots.ocr은 2025년 8월 샤오홍슈(Xiaohongshu)의 hi 랩에서 발표한 다국어 문서 레이아웃 파싱 모델입니다. 17억 개의 매개변수를 가진 시각 언어 모델(VLM)을 기반으로 하는 이 모델은 레이아웃 감지와 콘텐츠 인식을 통합하여 정확한 읽기 순서를 유지합니다. 작은 크기에도 불구하고, 이 모델은 OmniDocBench와 같은 벤치마크에서 탁월한 결과를 달성하는 등 최첨단 성능을 자랑합니다. Doubao-1.5 및 Gemini2.5-Pro와 같은 대형 모델의 수식 인식 성능과 견줄 만하며, 소수 언어 파싱에 상당한 이점을 제공합니다. dots.ocr은 간단하고 효율적인 아키텍처를 제공하며, 입력 프롬프트만 변경하여 작업을 전환할 수 있습니다. 빠른 추론 속도 덕분에 다양한 문서 파싱 시나리오에 적합합니다.

이 튜토리얼에서는 리소스로 단일 RTX 5090 카드를 사용합니다.

2. 프로젝트 예시

수식 문서 예

테이블 문서 예시

다국어 문서 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

매개변수 설명

프롬프트 선택:
- layout_all_en: 이미지의 모든 텍스트를 인식하고 원래 레이아웃 구조를 보존합니다.
- layout_only_en: 이미지에서 영어 텍스트만 인식하고 다른 언어는 무시합니다.
- OCR: 구조를 보존하지 않고 이미지 속의 텍스트를 인식합니다.
고급 설정:
- 이미지에 fitz_preprocess 활성화: 이미지에 fitz_preprocess를 활성화할지 여부를 설정합니다. 이미지 DPI가 낮은 경우 권장됩니다.
- 최소 픽셀: 이미지의 최소 픽셀 수로, 너무 작은 이미지를 필터링하는 데 사용됩니다.
- 최대 픽셀: 이미지의 최대 픽셀 수로, 너무 큰 이미지를 필터링하는 데 사용됩니다.

이 노트북은 커뮤니티 사용자가 기여한 것으로 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

Notebook 개요

수준

입문

주제

생성형 AI 컴퓨터 비전 최첨단 학술

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HyperAI

이 노트북 실행하기 Discord에서 논의하기

날짜

9달 전

태그

OCR

RTX 5090

라이선스

MIT

GitHub

rednote-hilab/dots.ocr9.0k

1. 튜토리얼 소개

이 튜토리얼에서는 리소스로 단일 RTX 5090 카드를 사용합니다.

2. 프로젝트 예시

수식 문서 예

테이블 문서 예시

다국어 문서 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

매개변수 설명

프롬프트 선택:
- layout_all_en: 이미지의 모든 텍스트를 인식하고 원래 레이아웃 구조를 보존합니다.
- layout_only_en: 이미지에서 영어 텍스트만 인식하고 다른 언어는 무시합니다.
- OCR: 구조를 보존하지 않고 이미지 속의 텍스트를 인식합니다.
고급 설정:
- 이미지에 fitz_preprocess 활성화: 이미지에 fitz_preprocess를 활성화할지 여부를 설정합니다. 이미지 DPI가 낮은 경우 권장됩니다.
- 최소 픽셀: 이미지의 최소 픽셀 수로, 너무 작은 이미지를 필터링하는 데 사용됩니다.
- 최대 픽셀: 이미지의 최대 픽셀 수로, 너무 큰 이미지를 필터링하는 데 사용됩니다.

Notebook 개요

수준

입문

주제

생성형 AI 컴퓨터 비전 최첨단 학술

Chandra-ocr-2는 수학/스프레드시트/손으로 쓴 콘텐츠를 구조화된 콘텐츠로 정확하게 변환합니다.

3달 전

dots.mocr 멀티모달 문서 구문 분석 튜토리얼

4달 전

Qianfan-OCR: 엔드투엔드 지능형 문서 모델

4달 전

FireRed-OCR 문서 구조 분석 모델

4달 전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

dots.ocr: 다국어 문서 구문 분석 모델

1. 튜토리얼 소개

2. 프로젝트 예시

수식 문서 예

테이블 문서 예시

다국어 문서 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

Notebook 개요

AI로 AI 구축

HyperAI Newsletters

Command Palette

dots.ocr: 다국어 문서 구문 분석 모델

1. 튜토리얼 소개

2. 프로젝트 예시

수식 문서 예

테이블 문서 예시

다국어 문서 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

Notebook 개요

관련 노트북

Chandra-ocr-2는 수학/스프레드시트/손으로 쓴 콘텐츠를 구조화된 콘텐츠로 정확하게 변환합니다.

dots.mocr 멀티모달 문서 구문 분석 튜토리얼

Qianfan-OCR: 엔드투엔드 지능형 문서 모델

FireRed-OCR 문서 구조 분석 모델

AI로 AI 구축

HyperAI Newsletters

Command Palette

dots.ocr: 다국어 문서 구문 분석 모델

1. 튜토리얼 소개

2. 프로젝트 예시

수식 문서 예

테이블 문서 예시

다국어 문서 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

Notebook 개요

관련 노트북

Chandra-ocr-2는 수학/스프레드시트/손으로 쓴 콘텐츠를 구조화된 콘텐츠로 정확하게 변환합니다.

dots.mocr 멀티모달 문서 구문 분석 튜토리얼

Qianfan-OCR: 엔드투엔드 지능형 문서 모델

FireRed-OCR 문서 구조 분석 모델

AI로 AI 구축

HyperAI Newsletters

관련 노트북

Chandra-ocr-2는 수학/스프레드시트/손으로 쓴 콘텐츠를 구조화된 콘텐츠로 정확하게 변환합니다.

dots.mocr 멀티모달 문서 구문 분석 튜토리얼

Qianfan-OCR: 엔드투엔드 지능형 문서 모델

FireRed-OCR 문서 구조 분석 모델

관련 노트북

Chandra-ocr-2는 수학/스프레드시트/손으로 쓴 콘텐츠를 구조화된 콘텐츠로 정확하게 변환합니다.

dots.mocr 멀티모달 문서 구문 분석 튜토리얼

Qianfan-OCR: 엔드투엔드 지능형 문서 모델

FireRed-OCR 문서 구조 분석 모델