3ヶ月前

概要

我々は、構造認識関係（SRR）三重項枠組みを活用することで、ドキュメント解析の分野で最先端の性能を達成する視覚言語モデル「MonkeyOCR」を紹介する。このアーキテクチャは、MinerUのモジュール型アプローチに見られる複雑なマルチツールパイプラインを簡素化し、Qwen-VLなどの大規模なマルチモーダルLLMのような大規模なエンドツーエンドモデルによるページ全体の処理に起因する非効率性を回避する。SRRでは、ドキュメント解析を以下の3つの基本的問いに抽象化する：「どこにあるか？」（構造）、「何であるか？」（認識）、「どのように構成されているか？」（関係）——これらはそれぞれレイアウト解析、コンテンツ同定、論理的順序付けに対応する。この焦点を絞った分解により、精度と処理速度のバランスが図られ、精度を損なうことなく効率的かつスケーラブルな処理が可能となる。本アプローチの訓練と評価のため、中国語および英語の10種類以上のドキュメントタイプにまたがる390万件のインスタンスを含む、現在までで最も包括的なドキュメント解析データセット「MonkeyDoc」を新たに構築した。実験の結果、MonkeyOCRはMinerUを平均5.1%上回り、特に数式（+15.0%）や表（+8.6%）など困難なコンテンツ処理において顕著な性能向上が確認された。注目すべきは、30億パラメータ（3B）のモデルが、720億パラメータ（72B）のQwen2.5-VLやGemini 2.5 Proといった大規模かつ高精度なモデルを上回り、英語ドキュメント解析タスクにおいて最先端の平均性能を達成した点である。さらに、複数ページのドキュメント処理においても、MonkeyOCRは顕著な高速化を実現し、1秒あたり0.84ページ（MinerU：0.65ページ、Qwen2.5-VL-7B：0.12ページ）の処理速度を達成した。また、3Bパラメータモデルは、単一のNVIDIA 3090 GPU上で効率的な推論が可能である。

ソースPDF コードを表示