2ヶ月前

LayoutMask: ドキュメント理解のための多モーダル事前学習におけるテキスト配置相互作用の強化

Yi Tu; Ya Guo; Huan Chen; Jinyang Tang
LayoutMask: ドキュメント理解のための多モーダル事前学習におけるテキスト配置相互作用の強化
要約

視覚的に豊かな文書理解(Visually-rich Document Understanding, VrDU)は、ここ数年で多くの研究者の注目を集めています。大規模な文書画像データセット上で事前学習された、トランスフォーマーを基盤とするモデルが、この分野での性能向上に大きく貢献しています。主要な課題は、異なるモダリティ(テキスト、レイアウト、画像)を統一的なモデルで融合し、異なる事前学習タスクを扱うことです。本論文では、テキストとレイアウトの相互作用を改善することに焦点を当て、新しい多モダリティ事前学習モデルであるLayoutMaskを提案します。LayoutMaskは、グローバル1D位置ではなく、ローカル1D位置を使用してレイアウト入力を処理し、2つの事前学習目標を持っています:(1) マスキング言語モデル(Masked Language Modeling):2つの新しいマスキング戦略を使用してマスキングされたトークンを予測する;(2) マスキング位置モデル(Masked Position Modeling):マスキングされた2D位置を予測してレイアウト表現学習を改善する。LayoutMaskは統一的なモデル内でテキストとレイアウトのモダリティ間の相互作用を強化し、下流タスク向けの適応的かつ堅牢な多モダリティ表現を生成することができます。実験結果は、提案手法が形式理解や領収書理解、文書画像分類など幅広いVrDU問題において最先端の結果を得られることを示しています。

LayoutMask: ドキュメント理解のための多モーダル事前学習におけるテキスト配置相互作用の強化 | 最新論文 | HyperAI超神経