HyperAIHyperAI

Command Palette

Search for a command to run...

DeepSeek-OCR:コンテキスト光学圧縮

Haoran Wei Yaofeng Sun Yukun Li

概要

本稿では、光学的2次元マッピングを用いた長文脈の圧縮の可能性についての初期的な検討として、DeepSeek-OCRを提案する。DeepSeek-OCRは、DeepEncoderと、DecoderとしてのDeepSeek3B-MoE-A570Mの2つの構成要素から構成される。特に、DeepEncoderはコアエンジンとして設計されており、高解像度の入力においても低活性化を維持しつつ、高い圧縮比を達成することで、視覚トークン数を最適かつ管理可能な範囲に抑えることを可能にしている。実験の結果、テキストトークン数が視覚トークン数の10倍以下(すなわち圧縮比が10×未満)の範囲では、モデルは97%の精度でOCR処理(デコード)を実現している。さらに、圧縮比が20×に達しても、OCR精度は約60%を維持している。これは、歴史的文脈の長文脈圧縮や大規模言語モデル(LLM)における記憶の消去メカニズムといった研究分野において、極めて有望な可能性を示している。また、実用面においてもDeepSeek-OCRは高い価値を有している。OmniDocBenchにおける評価では、1ページあたり256トークンのGOT-OCR2.0を、わずか100視覚トークンで上回り、平均1ページあたり6000トークン以上を要するMinerU2.0をも、800視覚トークン未満で凌駕している。実際の生産環境では、DeepSeek-OCRは1台のA100-40Gで1日あたり20万ページ以上の規模でLLM/VLM用の学習データを生成可能である。コードおよびモデル重みは、http://github.com/deepseek-ai/DeepSeek-OCR にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています