17日前
ダブリン ― ランゲージ・イメージネットワークを用いたドキュメント理解
Kriti Aggarwal, Aditi Khandelwal, Kumar Tanmay, Owais Mohammed Khan, Qiang Liu, Monojit Choudhury, Hardik Hansrajbhai Chauhan, Subhojit Som, Vishrav Chaudhary, Saurabh Tiwary

要約
視覚ドキュメント理解は、ドキュメント画像内のテキストおよび視覚的要素を同時に分析する複雑なタスクである。従来のモデルは、手動による特徴工学やドメイン特化型のパイプラインに依存する傾向があり、これにより異なるドキュメント形式や言語間での汎化能力が制限されていた。本論文では、ウェブページを用いて事前学習を行う新しいモデルDUBLINを提案する。このモデルは、ドキュメント画像に内在する空間的および意味的情報を活用する3つの新規な学習目標、すなわち「マスクドドキュメントテキスト生成タスク」「バウンディングボックス予測タスク」「レンダリングされた質問応答タスク」に基づいて学習される。実験結果から、DUBLINはWeb-Based Structural Reading Comprehension(WebSRC)、ドキュメント視覚的質問応答(DocVQA)、キー情報抽出、図表理解、テーブル質問応答など、複数のベンチマークで競争力ある、あるいは最先端の性能を達成した。特に、DUBLINは、WebSRCデータセットにおいて、EMが77.75、F1が84.25を達成する初めてのピクセルベースモデルであることを示した。また、DocVQA、InfographicsVQA、OCR-VQA、AI2Dデータセットにおいて、現在のピクセルベースのSOTAモデルをそれぞれ4.6%、6.5%、2.6%、21%上回った。さらに、RVL-CDIPドキュメント分類タスクにおいても、競争力ある性能を発揮した。加えて、テキストベースのデータセットをドキュメント画像としてレンダリングすることで、本研究分野の発展を促進する新たなベースラインを構築した。