11日前

VSR:視覚、意味および関係を統合したドキュメントレイアウト解析のための統一枠組み

Peng Zhang, Can Li, Liang Qiao, Zhanzhan Cheng, Shiliang Pu, Yi Niu, Fei Wu
VSR:視覚、意味および関係を統合したドキュメントレイアウト解析のための統一枠組み
要約

ドキュメントレイアウト解析は、ドキュメント構造を理解する上で極めて重要である。このタスクにおいて、ドキュメントの視覚情報と意味情報、およびレイアウト要素間の関係性が理解プロセスに貢献する。これまでに、上記の情報を活用する多くの研究が提案されてきたが、それらは満足のいく結果を示せていない。自然言語処理(NLP)ベースの手法はレイアウト解析をシーケンスラベリングタスクとして定式化しているが、レイアウトモデリングにおける能力が不十分である。一方、コンピュータビジョン(CV)ベースの手法は検出またはセグメンテーションタスクとして定式化しているものの、モダリティ融合の非効率性および要素間の関係モデリングの欠如という課題を抱えている。これらの課題に対処するため、本研究では視覚情報、意味情報、および要素間の関係性を統合的に扱うフレームワークVSRを提案する。VSRはNLPベースおよびCVベースの両方のアプローチをサポートする。具体的には、ドキュメント画像から視覚情報を、テキスト埋め込みマップから意味情報を導入する。次に、二本のストリームネットワークを用いてモダリティ固有の視覚的特徴と意味的特徴を抽出し、それらを適応的に融合することで、補完的な情報の有効活用を実現する。最後に、要素候補に対して、グラフニューラルネットワーク(GNN)に基づく関係モジュールを導入し、要素間の関係をモデリングし、最終的な出力を生成する。3つの代表的なベンチマークにおいて、VSRは従来のモデルを大きく上回る性能を達成した。コードは近日中に公開予定である。

VSR:視覚、意味および関係を統合したドキュメントレイアウト解析のための統一枠組み | 最新論文 | HyperAI超神経