オンラインチュートリアル | DeepSeek-OCR 2 の数式/表解析の改善により、低いビジュアルトークンコストで約 4% のパフォーマンス向上を実現

視覚言語モデル（VLM）の開発において、文書OCRは複雑なレイアウト解析や意味論的ロジックの整合といった主要な課題に常に直面してきました。従来のモデルは、視覚トークンを処理する際に、主に「左上から右下」という固定されたラスタースキャン順序を採用していました。この固定的なプロセスは、人間の視覚システムが従う意味論的なスキャンパターンと矛盾しており、特に複雑な数式や表を含む文書を処理する際には、意味論的関係を無視することで解析エラーが発生しやすくなります。モデルが人間のように視覚ロジックを「理解」できるようにする方法は、文書理解能力を向上させる上で重要なブレークスルーとなっています。

最近、DeepSeek-AI は最新の回答を提供する DeepSeek-OCR 2 をリリースしました。その中核となるのは、最新の DeepEncoder V2 アーキテクチャの採用です。このモデルは、従来のCLIP視覚エンコーダを放棄し、LLMスタイルの視覚エンコーディングパラダイムを導入します。双方向注意と因果的注意を融合することで、視覚トークンの意味駆動型再配置を実現し、2D画像理解のための「2段階1D因果推論」という新たな道筋を構築します。

DeepEncoder V2 の主な革新は、次の 4 つの側面に反映されています。

* CLIP を Qwen2-0.5B コンパクト LLM に置き換えて、約 5 億パラメータの規模で視覚エンコーディング因果推論機能を有効にします。

* ビジュアルトークンの数と同じ長さの「Causal Flow Query」を導入します。これは、カスタムアテンションマスクを使用してビジュアルトークンをグローバルに認識させながら、クエリトークンがビジュアル順序を意味的に再編成できるようにします。

* 256～1,120 個のビジュアルトークンに対して複数のプルーニング戦略をサポートし、効率性を維持しながら主流の大規模モデルのトークンバジェットに合わせます。

* 「視覚トークン + 因果クエリ」の連結構造を使用することで、意味の並べ替えと自己回帰生成が分離され、LLM の一方向注意メカニズムに自然に適応します。

この設計により、従来のモデルの空間順序の偏りが効果的に排除され、ピクセル位置を機械的に追うのではなく、人間が読むのと同じように、意味関係に基づいてテキスト、数式、表を動的に整理できるようになります。

OmniDocBench v1.5ベンチマークテストでは、DeepSeek-OCR 2 は、視覚トークン制限 1,120 で 91.091 TP3T の総合精度を達成しました。従来モデルと比較して、性能は3.73%向上し、読み順編集距離（ED）は0.085から0.057に短縮され、視覚的論理理解能力が大幅に向上しました。具体的なタスクでは、数式解析の精度が6.17%向上し、表理解性能は2.51～3.05%向上し、テキスト編集距離は0.025減少し、すべてのコア指標において大幅な進歩を達成しました。

同時に、そのエンジニアリングの実用性も抜群です。視覚トークンの圧縮率を16倍に維持しながら、オンラインサービスの繰り返し率は6.25%から4.17%に削減され、PDFバッチ処理の繰り返し率は3.69%から2.88%に削減され、学術的イノベーションと産業応用のニーズの両方を考慮しています。同様のモデルと比較すると、DeepSeek-OCR 2 は、視覚トークンのコストが低い高パラメータモデルに近い、あるいはそれを上回る結果を実現します。リソースが制限されたシナリオで高精度のドキュメント OCR を実現する、よりコスト効率の高いソリューションを提供します。

現在、「DeepSeek-OCR 2: Visual Causal Flow」はHyperAIウェブサイトの「チュートリアル」セクションで公開されています。以下のリンクをクリックして、ワンクリックで導入できるチュートリアルをお試しください⬇️

チュートリアルのリンク:https://go.hyper.ai/2ma8d

関連論文を見る:https://go.hyper.ai/hE1wW

効果のデモンストレーション：

デモの実行

1. hyper.ai ホームページにアクセスした後、「チュートリアル」ページを選択するか、「その他のチュートリアルを表示」をクリックし、「DeepSeek-OCR 2 Visual Causal Flow」を選択して、「このチュートリアルをオンラインで実行」をクリックします。

2. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。

注：ページの右上で言語を切り替えることができます。現在、中国語と英語が利用可能です。このチュートリアルでは英語で手順を説明します。

3. 「NVIDIA GeForce RTX 5090」と「PyTorch」のイメージを選択し、必要に応じて「Pay As You Go」または「Daily Plan/Weekly Plan/Monthly Plan」を選択し、「ジョブ実行を続行」をクリックします。

HyperAI は新規ユーザーに登録特典を提供しています。TP4T1 1 個だけで RTX 5090 を入手できます。 コンピューティング能力（元値$7）リソースは永続的に有効です。

4. リソースが割り当てられるのを待ちます。ステータスが「実行中」に変わったら、「ワークスペースを開く」をクリックしてJupyterワークスペースに入ります。

効果実証

ページがリダイレクトされたら、左側の README ページをクリックし、上部の [実行] をクリックします。

プロセスが完了したら、右側の API アドレスをクリックしてデモページに移動します。

以上が今回HyperAIがおすすめするチュートリアルです。ぜひ皆さんも体験してみてください！

チュートリアルのリンク:https://go.hyper.ai/2ma8d

HyperAI

オンラインチュートリアル | DeepSeek-OCR 2 の数式/表解析の改善により、低いビジュアルトークンコストで約 4% のパフォーマンス向上を実現

2時間前

DeepEncoder V2 の主な革新は、次の 4 つの側面に反映されています。

* CLIP を Qwen2-0.5B コンパクト LLM に置き換えて、約 5 億パラメータの規模で視覚エンコーディング因果推論機能を有効にします。

チュートリアルのリンク:https://go.hyper.ai/2ma8d

関連論文を見る:https://go.hyper.ai/hE1wW

効果のデモンストレーション：

デモの実行

2. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。

注：ページの右上で言語を切り替えることができます。現在、中国語と英語が利用可能です。このチュートリアルでは英語で手順を説明します。

効果実証

ページがリダイレクトされたら、左側の README ページをクリックし、上部の [実行] をクリックします。

プロセスが完了したら、右側の API アドレスをクリックしてデモページに移動します。

以上が今回HyperAIがおすすめするチュートリアルです。ぜひ皆さんも体験してみてください！

チュートリアルのリンク:https://go.hyper.ai/2ma8d

オンラインチュートリアル | DeepSeek-OCR 2 の数式/表解析の改善により、低いビジュアルトークンコストで約 4% のパフォーマンス向上を実現

2時間前

DeepEncoder V2 の主な革新は、次の 4 つの側面に反映されています。

* CLIP を Qwen2-0.5B コンパクト LLM に置き換えて、約 5 億パラメータの規模で視覚エンコーディング因果推論機能を有効にします。

チュートリアルのリンク:https://go.hyper.ai/2ma8d

関連論文を見る:https://go.hyper.ai/hE1wW

効果のデモンストレーション：

デモの実行

2. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。

注：ページの右上で言語を切り替えることができます。現在、中国語と英語が利用可能です。このチュートリアルでは英語で手順を説明します。

効果実証

ページがリダイレクトされたら、左側の README ページをクリックし、上部の [実行] をクリックします。

プロセスが完了したら、右側の API アドレスをクリックしてデモページに移動します。

以上が今回HyperAIがおすすめするチュートリアルです。ぜひ皆さんも体験してみてください！

チュートリアルのリンク:https://go.hyper.ai/2ma8d

Command Palette

オンラインチュートリアル | DeepSeek-OCR 2 の数式/表解析の改善により、低いビジュアルトークンコストで約 4% のパフォーマンス向上を実現

Command Palette

オンラインチュートリアル | DeepSeek-OCR 2 の数式/表解析の改善により、低いビジュアルトークンコストで約 4% のパフォーマンス向上を実現

関連 ニュース

AIペーパーウィークリーレポート｜最先端OCR技術解釈：DeepSeek、Tencent、Baiduが同じ舞台で競う、文字認識から構造化文書解析まで

オンラインチュートリアル | Deepseek-OCRは、最小限の視覚トークンでエンドツーエンドモデルの最先端技術を実現します

オンラインチュートリアル | テンセントのHunyuanオープンソースクライアントサイド翻訳ツールHY-MT1.5、1.8Bモデルはわずか1GBのメモリしか必要としません

オンライン チュートリアル | 正確な画像レイヤー化: Qwen-Image-Layered は、ターゲット レイヤー編集の問題点を克服し、高い忠実度と一貫性の両方を実現します。

最先端のリアルタイム物体検出！YOLOv13 はグローバル認識機能を拡張します。NeurIPS 2025 に選ばれた UltraHR-100K は、超高解像度のテクスチャ画像を実現します。

3Dビジョンのブレークスルー：ByteSeedがDA3を発表。あらゆる視点からの視覚空間再構成が可能に。7万点以上の実世界の産業環境データを搭載！CHIPが産業データのギャップを埋め、6Dポーズ推定を実現。

オンラインチュートリアル | MicrosoftがVibeVoiceをオープンソース化、4つの役割間で90分間の自然な対話を実現

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマー グレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

オンライン チュートリアル | 画像生成における最先端の FLUX.2 では、10 枚の画像を同時に参照できるため、文字とスタイルの一貫性が極めて高くなります。

Command Palette

オンラインチュートリアル | DeepSeek-OCR 2 の数式/表解析の改善により、低いビジュアルトークンコストで約 4% のパフォーマンス向上を実現

関連 ニュース

AIペーパーウィークリーレポート｜最先端OCR技術解釈：DeepSeek、Tencent、Baiduが同じ舞台で競う、文字認識から構造化文書解析まで

オンラインチュートリアル | Deepseek-OCRは、最小限の視覚トークンでエンドツーエンドモデルの最先端技術を実現します

オンラインチュートリアル | テンセントのHunyuanオープンソースクライアントサイド翻訳ツールHY-MT1.5、1.8Bモデルはわずか1GBのメモリしか必要としません

オンライン チュートリアル | 正確な画像レイヤー化: Qwen-Image-Layered は、ターゲット レイヤー編集の問題点を克服し、高い忠実度と一貫性の両方を実現します。

最先端のリアルタイム物体検出！YOLOv13 はグローバル認識機能を拡張します。NeurIPS 2025 に選ばれた UltraHR-100K は、超高解像度のテクスチャ画像を実現します。

3Dビジョンのブレークスルー：ByteSeedがDA3を発表。あらゆる視点からの視覚空間再構成が可能に。7万点以上の実世界の産業環境データを搭載！CHIPが産業データのギャップを埋め、6Dポーズ推定を実現。

オンラインチュートリアル | MicrosoftがVibeVoiceをオープンソース化、4つの役割間で90分間の自然な対話を実現

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマー グレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

オンライン チュートリアル | 画像生成における最先端の FLUX.2 では、10 枚の画像を同時に参照できるため、文字とスタイルの一貫性が極めて高くなります。

関連 ニュース

AIペーパーウィークリーレポート｜最先端OCR技術解釈：DeepSeek、Tencent、Baiduが同じ舞台で競う、文字認識から構造化文書解析まで

オンラインチュートリアル | Deepseek-OCRは、最小限の視覚トークンでエンドツーエンドモデルの最先端技術を実現します

オンラインチュートリアル | テンセントのHunyuanオープンソースクライアントサイド翻訳ツールHY-MT1.5、1.8Bモデルはわずか1GBのメモリしか必要としません

オンライン チュートリアル | 正確な画像レイヤー化: Qwen-Image-Layered は、ターゲット レイヤー編集の問題点を克服し、高い忠実度と一貫性の両方を実現します。

最先端のリアルタイム物体検出！YOLOv13 はグローバル認識機能を拡張します。NeurIPS 2025 に選ばれた UltraHR-100K は、超高解像度のテクスチャ画像を実現します。

3Dビジョンのブレークスルー：ByteSeedがDA3を発表。あらゆる視点からの視覚空間再構成が可能に。7万点以上の実世界の産業環境データを搭載！CHIPが産業データのギャップを埋め、6Dポーズ推定を実現。

オンラインチュートリアル | MicrosoftがVibeVoiceをオープンソース化、4つの役割間で90分間の自然な対話を実現

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマー グレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

オンライン チュートリアル | 画像生成における最先端の FLUX.2 では、10 枚の画像を同時に参照できるため、文字とスタイルの一貫性が極めて高くなります。

関連 ニュース

AIペーパーウィークリーレポート｜最先端OCR技術解釈：DeepSeek、Tencent、Baiduが同じ舞台で競う、文字認識から構造化文書解析まで

オンラインチュートリアル | Deepseek-OCRは、最小限の視覚トークンでエンドツーエンドモデルの最先端技術を実現します

オンラインチュートリアル | テンセントのHunyuanオープンソースクライアントサイド翻訳ツールHY-MT1.5、1.8Bモデルはわずか1GBのメモリしか必要としません

オンライン チュートリアル | 正確な画像レイヤー化: Qwen-Image-Layered は、ターゲット レイヤー編集の問題点を克服し、高い忠実度と一貫性の両方を実現します。

最先端のリアルタイム物体検出！YOLOv13 はグローバル認識機能を拡張します。NeurIPS 2025 に選ばれた UltraHR-100K は、超高解像度のテクスチャ画像を実現します。

3Dビジョンのブレークスルー：ByteSeedがDA3を発表。あらゆる視点からの視覚空間再構成が可能に。7万点以上の実世界の産業環境データを搭載！CHIPが産業データのギャップを埋め、6Dポーズ推定を実現。

オンラインチュートリアル | MicrosoftがVibeVoiceをオープンソース化、4つの役割間で90分間の自然な対話を実現

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマー グレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

オンライン チュートリアル | 画像生成における最先端の FLUX.2 では、10 枚の画像を同時に参照できるため、文字とスタイルの一貫性が極めて高くなります。

関連ニュース

オンラインチュートリアル | 正確な画像レイヤー化: Qwen-Image-Layered は、ターゲットレイヤー編集の問題点を克服し、高い忠実度と一貫性の両方を実現します。

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマーグレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

オンラインチュートリアル | 画像生成における最先端の FLUX.2 では、10 枚の画像を同時に参照できるため、文字とスタイルの一貫性が極めて高くなります。

関連ニュース

オンラインチュートリアル | 正確な画像レイヤー化: Qwen-Image-Layered は、ターゲットレイヤー編集の問題点を克服し、高い忠実度と一貫性の両方を実現します。

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマーグレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

オンラインチュートリアル | 画像生成における最先端の FLUX.2 では、10 枚の画像を同時に参照できるため、文字とスタイルの一貫性が極めて高くなります。

関連ニュース

オンラインチュートリアル | 正確な画像レイヤー化: Qwen-Image-Layered は、ターゲットレイヤー編集の問題点を克服し、高い忠実度と一貫性の両方を実現します。

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマーグレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

オンラインチュートリアル | 画像生成における最先端の FLUX.2 では、10 枚の画像を同時に参照できるため、文字とスタイルの一貫性が極めて高くなります。

関連ニュース

オンラインチュートリアル | 正確な画像レイヤー化: Qwen-Image-Layered は、ターゲットレイヤー編集の問題点を克服し、高い忠実度と一貫性の両方を実現します。

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマーグレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

オンラインチュートリアル | 画像生成における最先端の FLUX.2 では、10 枚の画像を同時に参照できるため、文字とスタイルの一貫性が極めて高くなります。