온라인 튜토리얼 | DeepSeek-OCR 2의 수식/표 구문 분석 개선으로 시각적 토큰 비용을 낮추면서 약 4%의 성능 향상 달성

6달 전

시각 언어 모델(VLM) 개발에 있어 문서 OCR은 복잡한 레이아웃 분석 및 의미 논리 정렬과 같은 핵심적인 과제에 지속적으로 직면해 왔습니다. 기존 모델들은 대부분 시각적 토큰을 처리하기 위해 고정된 "왼쪽 위에서 오른쪽 아래로" 래스터 스캔 순서를 사용합니다. 이러한 경직된 방식은 특히 복잡한 수식과 표가 포함된 문서를 처리할 때 인간의 시각 시스템이 따르는 의미 중심적인 스캔 패턴과 상반되어 의미 관계를 무시함으로써 분석 오류가 발생하기 쉽습니다. 모델이 인간처럼 시각적 논리를 "이해"할 수 있도록 하는 것이 문서 이해 능력을 향상시키는 데 있어 중요한 돌파구가 되었습니다.

최근 DeepSeek-AI는 최신 답변을 제공하는 DeepSeek-OCR 2를 출시했습니다.핵심은 완전히 새로운 DeepEncoder V2 아키텍처를 채택했다는 점입니다.본 모델은 기존의 CLIP 시각 인코더를 버리고 LLM 방식의 시각 인코딩 패러다임을 도입합니다. 양방향 어텐션과 인과적 어텐션을 융합하여 의미 기반의 시각 토큰 재배열을 구현함으로써 2D 이미지 이해를 위한 새로운 "2단계 1D 인과 추론" 경로를 구축합니다.

DeepEncoder V2의 핵심 혁신은 다음 네 가지 측면에서 나타납니다.

* CLIP을 Qwen2-0.5B 컴팩트 LLM으로 교체하여 약 5억 개의 매개변수 규모에서 시각적 인코딩 인과 추론 기능을 구현합니다.

* 시각적 토큰 수와 동일한 길이를 가진 "인과 흐름 쿼리"를 소개합니다. 이 쿼리는 사용자 지정 주의 마스크를 사용하여 시각적 토큰이 전역적으로 인식되도록 유지하면서 쿼리 토큰이 시각적 순서를 의미론적으로 재구성할 수 있도록 합니다.

* 256~1,120개의 시각적 토큰에 대해 다양한 가지치기 전략을 지원하여, 효율성을 유지하면서 주류 대형 모델의 토큰 예산에 부합합니다.

* "시각적 토큰 + 인과적 질의"의 연결 구조를 사용함으로써 의미 재정렬과 자기회귀 생성이 분리되어 LLM의 단방향 어텐션 메커니즘에 자연스럽게 적응합니다.

이 설계는 기존 모델의 공간적 순서 편향을 효과적으로 제거하여, 픽셀 위치를 기계적으로 따르는 대신 사람이 읽는 방식처럼 의미 관계에 기반하여 텍스트, 수식, 표를 동적으로 구성할 수 있도록 합니다.

OmniDocBench v1.5 벤치마크 테스트에서 다음 사항이 확인되었습니다.DeepSeek-OCR 2는 시각적 토큰 제한 1,120개에서 91.091 TP3T의 전체 정확도를 달성했습니다.이전 모델 대비 성능이 3.731 TP3T 향상되었으며, 읽기 순서 편집 거리(ED)는 0.085에서 0.057로 감소하여 시각적 논리 이해력이 크게 향상되었습니다. 구체적인 작업에서는 수식 구문 분석 정확도가 6.171 TP3T 향상되었고, 표 이해 성능은 2.51~3.051 TP3T 향상되었으며, 텍스트 편집 거리는 0.025 감소하여 모든 핵심 지표에서 상당한 발전을 이루었습니다.

한편, 이 기술의 실용성 또한 탁월합니다. 시각적 토큰 압축률을 16배로 유지하면서 온라인 서비스의 반복 처리량을 6.25%에서 4.17%로, PDF 일괄 처리의 반복 처리량을 3.69%에서 2.88%로 줄여 학술적 혁신과 산업적 응용 요구를 모두 충족시켰습니다.유사한 모델들과 비교했을 때, DeepSeek-OCR 2는 더 낮은 시각적 토큰 비용으로 대규모 매개변수 모델의 결과와 비슷하거나 심지어 능가하는 결과를 달성합니다.이는 자원이 제한된 환경에서 고정밀 문서 OCR을 위한 보다 비용 효율적인 솔루션을 제공합니다.

현재 "DeepSeek-OCR 2: 시각적 인과 흐름"은 HyperAI 웹사이트의 "튜토리얼" 섹션에서 이용 가능합니다. 아래 링크를 클릭하여 원클릭 배포 튜토리얼을 경험해 보세요 ⬇️

튜토리얼 링크:https://go.hyper.ai/2ma8d

관련 논문 보기:https://go.hyper.ai/hE1wW

효과 시연:

데모 실행

1. hyper.ai 홈페이지에 접속한 후 "튜토리얼" 페이지를 선택하거나 "더 많은 튜토리얼 보기"를 클릭하고 "DeepSeek-OCR 2 시각적 인과 흐름"을 선택한 다음 "이 튜토리얼을 온라인으로 실행"을 클릭합니다.

2. 페이지가 리디렉션된 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

참고: 페이지 오른쪽 상단에서 언어를 변경할 수 있습니다. 현재 중국어와 영어로만 제공됩니다. 이 튜토리얼에서는 영어로 된 단계를 안내합니다.

3. "NVIDIA GeForce RTX 5090" 및 "PyTorch" 이미지를 선택하고 필요에 따라 "종량제" 또는 "일일 요금제/주간 요금제/월간 요금제"를 선택한 다음 "작업 실행 계속"을 클릭합니다.

HyperAI는 신규 사용자를 위한 등록 혜택을 제공합니다.RTX 5090을 TP4T1 1개로 구매하세요. 해시레이트(정가 $7)해당 리소스는 영구적으로 유효합니다.

4. 리소스 할당이 완료될 때까지 기다립니다. 상태가 "실행 중"으로 변경되면 "워크스페이스 열기"를 클릭하여 Jupyter 워크스페이스에 들어갑니다.

효과 시연

페이지가 리디렉션된 후 왼쪽의 README 페이지를 클릭하고 상단의 실행을 클릭하세요.

절차가 완료되면 오른쪽에 있는 API 주소를 클릭하여 데모 페이지로 이동하세요.

위는 HyperAI가 이번에 추천하는 튜토리얼입니다. 누구나 와서 체험해 보세요!

튜토리얼 링크:https://go.hyper.ai/2ma8d

온라인 튜토리얼 | DeepSeek-OCR 2의 수식/표 구문 분석 개선으로 시각적 토큰 비용을 낮추면서 약 4%의 성능 향상 달성

6달 전

DeepEncoder V2의 핵심 혁신은 다음 네 가지 측면에서 나타납니다.

* CLIP을 Qwen2-0.5B 컴팩트 LLM으로 교체하여 약 5억 개의 매개변수 규모에서 시각적 인코딩 인과 추론 기능을 구현합니다.

* 256~1,120개의 시각적 토큰에 대해 다양한 가지치기 전략을 지원하여, 효율성을 유지하면서 주류 대형 모델의 토큰 예산에 부합합니다.

튜토리얼 링크:https://go.hyper.ai/2ma8d

관련 논문 보기:https://go.hyper.ai/hE1wW

효과 시연:

데모 실행

2. 페이지가 리디렉션된 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

참고: 페이지 오른쪽 상단에서 언어를 변경할 수 있습니다. 현재 중국어와 영어로만 제공됩니다. 이 튜토리얼에서는 영어로 된 단계를 안내합니다.

HyperAI는 신규 사용자를 위한 등록 혜택을 제공합니다.RTX 5090을 TP4T1 1개로 구매하세요. 해시레이트(정가 $7)해당 리소스는 영구적으로 유효합니다.

4. 리소스 할당이 완료될 때까지 기다립니다. 상태가 "실행 중"으로 변경되면 "워크스페이스 열기"를 클릭하여 Jupyter 워크스페이스에 들어갑니다.

효과 시연

페이지가 리디렉션된 후 왼쪽의 README 페이지를 클릭하고 상단의 실행을 클릭하세요.

절차가 완료되면 오른쪽에 있는 API 주소를 클릭하여 데모 페이지로 이동하세요.

위는 HyperAI가 이번에 추천하는 튜토리얼입니다. 누구나 와서 체험해 보세요!

튜토리얼 링크:https://go.hyper.ai/2ma8d

Command Palette

온라인 튜토리얼 | DeepSeek-OCR 2의 수식/표 구문 분석 개선으로 시각적 토큰 비용을 낮추면서 약 4%의 성능 향상 달성

데모 실행

효과 시연

Command Palette

온라인 튜토리얼 | DeepSeek-OCR 2의 수식/표 구문 분석 개선으로 시각적 토큰 비용을 낮추면서 약 4%의 성능 향상 달성

데모 실행

효과 시연

관련 뉴스

온라인 튜토리얼 | 수십 페이지 분량의 문서를 한 번에 32,000바이트 문맥으로 파싱하기: 바이두 오픈 소스 무제한 OCR, 긴 문서를 사용한 복잡한 시나리오 재구성

데이터셋 개요 | NVIDIA, Nemotron 데이터셋 공개: 10TB 이상의 토큰과 4천만 개의 학습 샘플을 포함하며, 수학적 추론, 코드 생성 및 다국어 대화 학습을 지원합니다.

온라인 튜토리얼 | 단일 SIM 카드로 대규모 수정: MiniCPM-V-4.6, 1.3B 오픈 소스 모델은 이미지 이해/비디오 이해/OCR/다중 턴 멀티모달 대화(Wallfacer 및 기타 오픈 소스 라이브러리 사용)를 지원합니다.

로컬에서 실행 가능한 개인정보 탐지 모델인 Privacy Filter는 저비용으로 고품질 개인정보 필터링을 구현합니다. 완전 오픈 소스 프로젝트이며, 8만 건 이상의 경기가 포함된 Transfermarkt 구조화된 축구 데이터셋을 지원합니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

온라인 튜토리얼 | 소형 9B 모델로도 복잡한 추론 가능: Qwen 3.5-9B 기반의 Qwythos는 Claude의 추론 경험을 통합하여 기능을 획기적으로 향상시켰습니다.

Command Palette

온라인 튜토리얼 | DeepSeek-OCR 2의 수식/표 구문 분석 개선으로 시각적 토큰 비용을 낮추면서 약 4%의 성능 향상 달성

데모 실행

효과 시연

관련 뉴스

온라인 튜토리얼 | 수십 페이지 분량의 문서를 한 번에 32,000바이트 문맥으로 파싱하기: 바이두 오픈 소스 무제한 OCR, 긴 문서를 사용한 복잡한 시나리오 재구성

데이터셋 개요 | NVIDIA, Nemotron 데이터셋 공개: 10TB 이상의 토큰과 4천만 개의 학습 샘플을 포함하며, 수학적 추론, 코드 생성 및 다국어 대화 학습을 지원합니다.

온라인 튜토리얼 | 단일 SIM 카드로 대규모 수정: MiniCPM-V-4.6, 1.3B 오픈 소스 모델은 이미지 이해/비디오 이해/OCR/다중 턴 멀티모달 대화(Wallfacer 및 기타 오픈 소스 라이브러리 사용)를 지원합니다.

로컬에서 실행 가능한 개인정보 탐지 모델인 Privacy Filter는 저비용으로 고품질 개인정보 필터링을 구현합니다. 완전 오픈 소스 프로젝트이며, 8만 건 이상의 경기가 포함된 Transfermarkt 구조화된 축구 데이터셋을 지원합니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

온라인 튜토리얼 | 소형 9B 모델로도 복잡한 추론 가능: Qwen 3.5-9B 기반의 Qwythos는 Claude의 추론 경험을 통합하여 기능을 획기적으로 향상시켰습니다.

관련 뉴스

온라인 튜토리얼 | 수십 페이지 분량의 문서를 한 번에 32,000바이트 문맥으로 파싱하기: 바이두 오픈 소스 무제한 OCR, 긴 문서를 사용한 복잡한 시나리오 재구성

데이터셋 개요 | NVIDIA, Nemotron 데이터셋 공개: 10TB 이상의 토큰과 4천만 개의 학습 샘플을 포함하며, 수학적 추론, 코드 생성 및 다국어 대화 학습을 지원합니다.

온라인 튜토리얼 | 단일 SIM 카드로 대규모 수정: MiniCPM-V-4.6, 1.3B 오픈 소스 모델은 이미지 이해/비디오 이해/OCR/다중 턴 멀티모달 대화(Wallfacer 및 기타 오픈 소스 라이브러리 사용)를 지원합니다.

로컬에서 실행 가능한 개인정보 탐지 모델인 Privacy Filter는 저비용으로 고품질 개인정보 필터링을 구현합니다. 완전 오픈 소스 프로젝트이며, 8만 건 이상의 경기가 포함된 Transfermarkt 구조화된 축구 데이터셋을 지원합니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

온라인 튜토리얼 | 소형 9B 모델로도 복잡한 추론 가능: Qwen 3.5-9B 기반의 Qwythos는 Claude의 추론 경험을 통합하여 기능을 획기적으로 향상시켰습니다.

관련 뉴스

온라인 튜토리얼 | 수십 페이지 분량의 문서를 한 번에 32,000바이트 문맥으로 파싱하기: 바이두 오픈 소스 무제한 OCR, 긴 문서를 사용한 복잡한 시나리오 재구성

데이터셋 개요 | NVIDIA, Nemotron 데이터셋 공개: 10TB 이상의 토큰과 4천만 개의 학습 샘플을 포함하며, 수학적 추론, 코드 생성 및 다국어 대화 학습을 지원합니다.

온라인 튜토리얼 | 단일 SIM 카드로 대규모 수정: MiniCPM-V-4.6, 1.3B 오픈 소스 모델은 이미지 이해/비디오 이해/OCR/다중 턴 멀티모달 대화(Wallfacer 및 기타 오픈 소스 라이브러리 사용)를 지원합니다.

로컬에서 실행 가능한 개인정보 탐지 모델인 Privacy Filter는 저비용으로 고품질 개인정보 필터링을 구현합니다. 완전 오픈 소스 프로젝트이며, 8만 건 이상의 경기가 포함된 Transfermarkt 구조화된 축구 데이터셋을 지원합니다.

구글이 혼합 테이블형 데이터를 위한 제로샷 예측 모델인 TabFM-1.0.0-PyTorch를 출시했습니다. NVIDIA는 수천만 개의 문자를 포함하는 다국적 합성 문자 데이터셋을 오픈소스로 공개했습니다.

이모티콘으로 음성 생성을 제어할 수 있을까요? Irodori-TTS는 RF-DiT 아키텍처 기반의 일본어 TTS입니다. 습진 및 백선 피부 질환 데이터 세트: 의료 영상 분류 및 전이 학습을 지원합니다.

4단계 이미지 출력/4K 화질/6배속 향상, PiD는 픽셀 확산을 사용하여 디코딩과 초해상도 출력을 통합합니다. SA-3DAO: 아티스트가 직접 제작한 3D 메시와 실제 이미지 1000쌍을 포함하는 데이터셋입니다.

온라인 튜토리얼 | 소형 9B 모델로도 복잡한 추론 가능: Qwen 3.5-9B 기반의 Qwythos는 Claude의 추론 경험을 통합하여 기능을 획기적으로 향상시켰습니다.