MonkeyOCR: 構造認識関係のトリプルパラダイムに基づく文書解析
1. チュートリアルの概要

MonkeyOCRは、華中科技大学とKingsoft Officeが2025年6月5日にオープンソース化した文書解析モデルです。このモデルは、非構造化文書のコンテンツを構造化情報に効率的に変換することをサポートします。精密なレイアウト分析、コンテンツ認識、論理ソートに基づいて、文書解析の精度と効率が大幅に向上しています。従来の手法と比較して、MonkeyOCRは複雑な文書(数式や表を含む文書など)の処理において優れたパフォーマンスを発揮し、平均5.1%の向上、数式解析では15.0%、表解析では8.6%の向上を実現しています。このモデルは複数ページの文書の処理においても優れたパフォーマンスを発揮し、毎秒0.84ページという高い処理速度は、他の類似ツールをはるかに上回っています。MonkeyOCRは、学術論文、教科書、新聞など、様々な文書形式に対応し、複数の言語にも対応しているため、文書のデジタル化と自動処理を強力にサポートします。関連論文の結果は以下です。MonkeyOCR: 構造・認識・関係のトリプレットパラダイムによる文書解析”。
主な機能:
- ドキュメントの解析と構造化: さまざまな形式 (PDF、画像など) のドキュメント内の非構造化コンテンツ (テキスト、表、数式、画像など) を、構造化された機械可読情報に変換します。
- 多言語サポート:中国語や英語を含む複数の言語をサポートします。
- 複雑なドキュメントを効率的に処理: 複雑なドキュメント (数式、表、複数列のレイアウトなどを含むドキュメントなど) を処理するときに優れたパフォーマンスを発揮します。
- 高速な複数ページ ドキュメント処理: 0.84 ページ/秒の処理速度で複数ページ ドキュメントを効率的に処理します。これは、他のツール (MinerU 0.65 ページ/秒、Qwen2.5-VL-7B 0.12 ページ/秒など) よりも大幅に優れています。
- 柔軟な導入と拡張: さまざまな規模のニーズを満たすために、単一の NVIDIA 3090 GPU 上での効率的な導入をサポートします。
技術原理:
- 構造認識関係(SRR)トリプレットパラダイム:YOLOに基づく文書レイアウト検出器。文書内の主要要素(テキストブロック、表、数式、画像など)の位置とカテゴリを識別します。検出された各領域に対してコンテンツ認識を実行し、大規模マルチモーフィックモデル(LMM)を用いてエンドツーエンドの認識を実行することで、高い精度を確保します。ブロックレベルの読み順予測メカニズムに基づいて、検出された要素間の論理関係を決定し、文書の意味構造を再構築します。
- MonkeyDocデータセット:MonkeyDocは、390万件のインスタンスを収録し、中国語と英語の10種類以上の文書を網羅する、これまでで最も包括的な文書解析データセットです。このデータセットは、慎重な手動アノテーション、プログラムによる合成、そしてモデル駆動型の自動アノテーションを統合した多段階パイプラインに基づいて構築されています。MonkeyOCRモデルの学習と評価に使用され、多様で複雑な文書シナリオにおける強力な汎化能力を確保しています。
- モデルの最適化と展開:AdamWオプティマイザーとコサイン学習率スケジューリングを大規模データセットと組み合わせて学習することで、モデルの精度と効率性のバランスを確保します。LMDeplovツールをベースにしたMonkeyOCRは、単一のNVIDIA 3090 GPUで効率的に実行でき、高速な推論と大規模な展開をサポートします。
このチュートリアルで使用されるコンピューティング リソースは、単一の RTX 4090 カードです。
2. エフェクト表示
数式ドキュメントの例

表文書の例

新聞の例

財務報告書の例


3. 操作手順
1. コンテナを起動します

2. 使用手順
「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

4. 議論
🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報
このプロジェクトの引用情報は次のとおりです。
@misc{li2025monkeyocrdocumentparsingstructurerecognitionrelation,
title={MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm},
author={Zhang Li and Yuliang Liu and Qiang Liu and Zhiyin Ma and Ziyang Zhang and Shuo Zhang and Zidun Guo and Jiarui Zhang and Xinyu Wang and Xiang Bai},
year={2025},
eprint={2506.05218},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2506.05218},
}