実世界の視覚的に豊かな文書情報抽出における事前学習済みテキストおよびレイアウトモデルの欠陥の解明

最近開発された事前学習済みテキストおよびレイアウトモデル(Pre-Trained Text-and-Layout Models, PTLMs)は、視覚的に豊かな文書(Visually-Rich Documents, VrDs)からの情報抽出タスクにおいて著しい成功を収めています。しかし、ベンチマークでの極めて高い性能にもかかわらず、実世界での性能は期待に及ばないことが明らかになっています。この問題に対処するため、我々は現行の評価パイプラインを調査し、以下の点を明らかにしました:(1) ベンチマークデータセット内の不十分なアノテーションがタスク入力とラベルの間の偽相関を導き、モデルの性能に対する過度に楽観的な推定を引き起こします。(2) 評価がベンチマークの性能のみに依存しており、実世界シナリオにおける手法の能力を包括的に探求するのに十分ではありません。これらの問題により、現行の評価パイプラインは実世界での手法の性能を正確に反映できず、手法最適化の設計選択肢を誤導しています。本研究では、視覚的に豊かな文書からの情報抽出をベンチマークするために作成されたエンティティ中心型データセットEC-FUNSDを紹介します。このデータセットには多様なレイアウトと高品質なアノテーションが含まれています。さらに、FUNSDのブロックレベルアノテーションから生じる誤ったセグメントとエンティティアノテーションの結合を取り除いています。提案されたデータセットを使用して、PTLMsの実世界情報抽出能力について絶対性能だけでなく、汎化性、堅牢性、公平性などの複数の側面から評価を行いました。結果は、現行のPTLMsが実世界情報抽出シナリオで予想ほど高性能ではないことを示しています。我々は本研究がPTLM開発方向性に関する反省を促すことを期待しています。