17日前

DocFormerv2:ドキュメント理解における局所特徴

Srikar Appalaraju, Peng Tang, Qi Dong, Nishant Sankaran, Yichu Zhou, R. Manmatha
DocFormerv2:ドキュメント理解における局所特徴
要約

我々は、視覚ドキュメント理解(Visual Document Understanding: VDU)のためのマルチモーダルトランスフォーマー「DocFormerv2」を提案する。VDU領域とは、単なるOCR予測を超えてドキュメントの理解を行うことを意味する。具体的には、フォームからの情報抽出、ドキュメント向け質疑応答(VQA)、その他のタスクを含む。VDUは、視覚的、言語的、空間的という複数のモダリティを統合的に処理し、正確な予測を行う必要があるため、極めて困難な課題である。本研究で提案するDocFormerv2は、エンコーダ・デコーダ構造を持つトランスフォーマーモデルであり、入力として視覚特徴、言語特徴、空間特徴を用いる。DocFormerv2は、非教師あり学習タスクを非対称に適用することで事前学習を行う。具体的には、エンコーダ側に2つの新規ドキュメント特化タスク、デコーダ側に1つの自己回帰的タスクを設定している。これらの非教師ありタスクは、複数モダリティ間の局所的特徴の整合性を促進するよう、慎重に設計されている。9つのデータセットにおける評価結果から、DocFormerv2は強力なベースライン(例:TabFactで4.3%、InfoVQAで1.4%、FUNSDで1%)を上回る最先端の性能を達成している。さらに、汎化能力を検証するため、シーンテキストを含む3つのVQAタスクにおいても、同サイズの既存モデルを上回り、一部のタスクでははるかに大きなモデル(GIT2、PaLi、Flamingoなど)をも凌駕する結果を示した。詳細なアブレーション実験により、事前学習の効果により、従来のVDUモデルと比較して、DocFormerv2が複数モダリティをより深く理解していることが確認された。

DocFormerv2:ドキュメント理解における局所特徴 | 最新論文 | HyperAI超神経