4ヶ月前

概要

ドキュメント画像の解析は、テキスト段落、図、数式、表など複雑に交錯する要素を扱うため、困難な課題である。現在の手法は、専門的なエキスパートモデルを組み合わせるアプローチか、ページ単位のコンテンツを自己回帰的に直接生成するアプローチを採用しているが、いずれも良好な性能を発揮するものの、統合のオーバーヘッド、効率性のボトルネック、レイアウト構造の劣化といった課題を抱えている。こうした限界を克服するため、本研究では「Dolphin（Document Image Parsing via Heterogeneous Anchor Prompting）」という新しいマルチモーダルドキュメント画像解析モデルを提案する。Dolphinは、「分析→解析」のパラダイムに従い、第1段階で読み順に並んだレイアウト要素のシーケンスを生成する。これらの異種要素は、アノテーションの役割を果たし、タスク固有のプロンプトと連携して、第2段階において並列にコンテンツを解析するための入力としてDolphinに再投入される。Dolphinの学習のために、多粒度の解析タスクをカバーする3,000万件を超えるサンプルから構成される大規模なデータセットを構築した。既存の代表的ベンチマークおよび自作のベンチマークにおける包括的な評価結果から、Dolphinはページレベルおよび要素レベルの多様な設定において最先端の性能を達成するとともに、軽量なアーキテクチャと並列解析機構により、優れた効率性を実現していることが確認された。コードおよび事前学習済みモデルは、以下のURLにて公開されている。

コードを表示