16日前

DocFormer:ドキュメント理解のためのエンドツーエンド変換モデル

Srikar Appalaraju, Bhavan Jasani, Bhargava Urala Kota, Yusheng Xie, R. Manmatha
DocFormer:ドキュメント理解のためのエンドツーエンド変換モデル
要約

我々は、視覚ドキュメント理解(Visual Document Understanding; VDU)という課題を対象としたマルチモーダルトランスフォーマー型アーキテクチャ「DocFormer」を提案する。VDUは、フォームや領収書など多様な形式とレイアウトを有するドキュメントを正確に理解することを目的とする、極めて困難な課題である。本研究では、DocFormerが、テキスト、視覚情報、空間的特徴を統合する新しいマルチモーダル自己注意(multi-modal self-attention)層を採用しており、さらに複数のモダリティ間で学習された空間埋め込み(spatial embeddings)を共有することで、テキストトークンと視覚トークンの相互対応を効率的に実現している。また、DocFormerは、マルチモーダルな相互作用を促進するように設計されたタスクに基づき、教師なしの方法で事前学習が行われており、このアプローチにより、異なるモダリティ間の統合的表現が強化される。DocFormerは、それぞれに強力なベースラインが存在する4つの異なるデータセット上で評価された結果、すべてのタスクで最先端の性能を達成しており、パラメータ数が4倍のモデルを上回る結果も得られている。

DocFormer:ドキュメント理解のためのエンドツーエンド変換モデル | 最新論文 | HyperAI超神経