2ヶ月前

視覚的に豊かな文書理解のためのレイアウト読み順を順序関係としてモデル化

Chong Zhang; Yi Tu; Yixi Zhao; Chenshu Yuan; Huan Chen; Yue Zhang; Mingxu Chai; Ya Guo; Huijia Zhu; Qi Zhang; Tao Gui
視覚的に豊かな文書理解のためのレイアウト読み順を順序関係としてモデル化
要約

視覚的に豊かな文書(Visually-rich Documents, VrDs)のレイアウト読み順をモデリングし、活用することは、文書内の豊かな構造的意味を捉えるため、文書インテリジェンスにおいて極めて重要です。従来の研究では、通常、レイアウト読み順をレイアウト要素の並び替えとして定式化していました。つまり、すべてのレイアウト要素を含むシーケンスとして扱っていました。しかし、私たちはこの定式化がレイアウト内の完全な読み順情報を十分に伝えられていないと主張します。これは、下流のVrDタスクにおける性能低下につながる可能性があります。この問題に対処するために、私たちはレイアウト要素の集合上の順序関係としてレイアウト読み順をモデル化することを提案します。これにより、完全な読み順情報に十分な表現力を確保できます。さらに、改善された形式の読み順予測(Reading Order Prediction, ROP)手法に対する実証評価を可能にするために、レイアウト要素間の関係として読み順アノテーションを含む包括的なベンチマークデータセットを構築しました。また、従来の手法よりも優れた関係抽出ベースの方法も提案しています。さらに、改善された形式のレイアウト読み順導入による実践的な利点を強調するため、任意のVrDタスクでモデル性能を向上させるために追加の読み順関係情報を導入するパイプラインも提案しています。包括的な結果は以下の通りです:(1) 読み順関係情報を利用することで、強化された下流モデルは対象データセットの2つのタスク設定においてともに最先端(State-of-the-Art, SOTA)の結果を達成しました;(2) 提案されたROPモデルによって生成された疑似読み順情報を利用することで、特定の最適化なしに3つのモデルと8つのクロスドメインVrD-IE/QAタスク設定において性能が向上しました。