Command Palette
Search for a command to run...
DeepSeek-OCR: "시각적 압축"으로 기존 문자 인식 대체
1. 튜토리얼 소개

DeepSeek Inc.에서 2025년 10월에 출시한 DeepSeek-OCR은 이미지에서 긴 맥락을 압축하는 것의 타당성에 대한 예비 연구입니다. 핵심 엔진인 DeepEncoder는 고해상도 입력에서 높은 압축률을 달성하는 동시에 낮은 활성화 수준을 유지하여 시각적 토큰의 개수를 제어 가능하고 최적화된 범위 내에서 유지하는 것을 목표로 합니다. 실험 결과, 텍스트 토큰의 개수가 시각적 토큰 개수의 10배를 초과하지 않을 때(즉, 압축률 < 10배), 이 모델은 971 TP3T의 디코딩(OCR) 정확도를 달성했습니다. 압축률이 20배일 때에도 OCR 정확도는 약 601 TP3T로 유지되었습니다. 이는 역사적 문서의 긴 맥락 압축 및 대규모 모델의 메모리 감쇠 메커니즘과 같은 연구 방향에 상당한 가능성을 보여줍니다. 관련 논문의 제목은 "..."입니다.DeepSeek-OCR: 컨텍스트 광학 압축".
이 튜토리얼에서는 기본 리소스로 단일 RTX 5090 그래픽 카드를 사용하지만, 최소한 단일 RTX 4090 그래픽 카드를 사용하여 프로그램을 시작할 수 있습니다.
2. 프로젝트 예시
3. 작업 단계
1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 웹페이지에 접속한 후, 이미지를 업로드하고 텍스트를 분석할 수 있습니다.
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.
사용 방법

3. 출력 결과
4. 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보
이 프로젝트에 대한 인용 정보는 다음과 같습니다.
@article{wei2025deepseek,
title={DeepSeek-OCR: Contexts Optical Compression},
author={Wei, Haoran and Sun, Yaofeng and Li, Yukun},
journal={arXiv preprint arXiv:2510.18234},
year={2025}
}