Command Palette

Search for a command to run...

12日前

MonkeyOCR:構造認識関係三重項パラダイムを用いたドキュメント解析

Adam Tauman Kalai Yael Tauman Kalai Or Zamir

MonkeyOCR:構造認識関係三重項パラダイムを用いたドキュメント解析

要約

我々は、構造認識関係(SRR)三重項枠組みを活用することで、ドキュメント解析の分野で最先端の性能を達成する視覚言語モデル「MonkeyOCR」を紹介する。このアーキテクチャは、MinerUのモジュール型アプローチに見られる複雑なマルチツールパイプラインを簡素化し、Qwen-VLなどの大規模なマルチモーダルLLMのような大規模なエンドツーエンドモデルによるページ全体の処理に起因する非効率性を回避する。SRRでは、ドキュメント解析を以下の3つの基本的問いに抽象化する:「どこにあるか?」(構造)、「何であるか?」(認識)、「どのように構成されているか?」(関係)——これらはそれぞれレイアウト解析、コンテンツ同定、論理的順序付けに対応する。この焦点を絞った分解により、精度と処理速度のバランスが図られ、精度を損なうことなく効率的かつスケーラブルな処理が可能となる。本アプローチの訓練と評価のため、中国語および英語の10種類以上のドキュメントタイプにまたがる390万件のインスタンスを含む、現在までで最も包括的なドキュメント解析データセット「MonkeyDoc」を新たに構築した。実験の結果、MonkeyOCRはMinerUを平均5.1%上回り、特に数式(+15.0%)や表(+8.6%)など困難なコンテンツ処理において顕著な性能向上が確認された。注目すべきは、30億パラメータ(3B)のモデルが、720億パラメータ(72B)のQwen2.5-VLやGemini 2.5 Proといった大規模かつ高精度なモデルを上回り、英語ドキュメント解析タスクにおいて最先端の平均性能を達成した点である。さらに、複数ページのドキュメント処理においても、MonkeyOCRは顕著な高速化を実現し、1秒あたり0.84ページ(MinerU:0.65ページ、Qwen2.5-VL-7B:0.12ページ)の処理速度を達成した。また、3Bパラメータモデルは、単一のNVIDIA 3090 GPU上で効率的な推論が可能である。

コードリポジトリ

yuliang-liu/monkeyocr
公式
paddle
GitHubで言及

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MonkeyOCR:構造認識関係三重項パラダイムを用いたドキュメント解析 | 論文 | HyperAI超神経