DeepSeek、長文ドキュメントを画像で圧縮する新モデル「DeepSeek-OCR」をオープンソース化
DeepSeekが、長文ドキュメントの処理コストを大幅に削減する新技術「DeepSeek-OCR」をオープンソースで公開した。このモデルは、大規模言語モデル(LLM)が長文を処理する際の計算負荷とメモリ使用量の課題に応えるため、テキストを「画像に変換し、視覚的特徴として圧縮」する「上下文光学圧縮」の新アプローチを採用している。 従来、LLMは数万文字の入力に対して、トークン数が指数的に増加し、処理に莫大なリソースを要する。DeepSeek-OCRは、人間がドキュメントを読む際の視覚的処理を模倣。入力テキストを高解像度画像にレンダリングし、その画像を効率的な視覚モデルで圧縮。これにより、数万単位のテキストトークンを数百程度の視覚トークンに集約。その後、圧縮された特徴を解読するためのデコーダーで元の内容を再構成する。 このシステムの中心は、SAM(Segment Anything Model)とCLIPの特長を融合した「DeepEncoder」。SAMによる局所的な細部処理と、CLIPによる全体構造の把握を組み合わせ、16倍のダウンサンプリングで計算コストを抑制。これにより、高解像度画像でもメモリオーバーフローを回避。解処理側には、30億パラメータ、5.7億パラメータが活性化される混合専門家(MoE)モデル「DeepSeek-3B-MoE-A570M」を採用。圧縮された視覚特徴を高精度でテキストに復元する。 テストでは、600~1,300トークンのドキュメントを64~100の視覚トークンで処理。圧縮比10倍以下では97%以上の認識精度を達成。OmniDocBenchでは、GOT-OCR2.0(1ページ256トークン)やMinerU2.0(6,000以上)と比較し、少ないトークン数で同等以上の性能を示した。 さらに、図表、化学構造式、幾何図形など複雑な要素も解析可能。報告書のグラフを表形式に変換、分子式をSMILES形式に変換するなど、金融・研究・教育分野での応用が期待される。 DeepSeekは、A100-40G GPU一台で1日20万ページ以上の処理を実現。ただし、圧縮比が10倍を超えると精度が低下する課題や、複雑なレイアウトへの対応力の限界がある。また、対話履歴のような連続的文脈の処理には、まだ検証が必要。 今後の展望として、会話履歴を画像化して長文管理を効率化する、知識ベースを視覚インデックス化するといった応用が示唆されている。DeepSeek-OCRは、視覚と言語の融合による新たな処理パラダイムを提示し、AIの長文処理能力を根本から変える可能性を秘めている。
