Command Palette
Search for a command to run...
Haoran Wei Yaofeng Sun Yukun Li

要約
本稿では、光学的2次元マッピングを用いた長文脈の圧縮の可能性についての初期的な検討として、DeepSeek-OCRを提案する。DeepSeek-OCRは、DeepEncoderと、DecoderとしてのDeepSeek3B-MoE-A570Mの2つの構成要素から構成される。特に、DeepEncoderはコアエンジンとして設計されており、高解像度の入力においても低活性化を維持しつつ、高い圧縮比を達成することで、視覚トークン数を最適かつ管理可能な範囲に抑えることを可能にしている。実験の結果、テキストトークン数が視覚トークン数の10倍以下(すなわち圧縮比が10×未満)の範囲では、モデルは97%の精度でOCR処理(デコード)を実現している。さらに、圧縮比が20×に達しても、OCR精度は約60%を維持している。これは、歴史的文脈の長文脈圧縮や大規模言語モデル(LLM)における記憶の消去メカニズムといった研究分野において、極めて有望な可能性を示している。また、実用面においてもDeepSeek-OCRは高い価値を有している。OmniDocBenchにおける評価では、1ページあたり256トークンのGOT-OCR2.0を、わずか100視覚トークンで上回り、平均1ページあたり6000トークン以上を要するMinerU2.0をも、800視覚トークン未満で凌駕している。実際の生産環境では、DeepSeek-OCRは1台のA100-40Gで1日あたり20万ページ以上の規模でLLM/VLM用の学習データを生成可能である。コードおよびモデル重みは、http://github.com/deepseek-ai/DeepSeek-OCR にて公開されている。