2ヶ月前

LayoutLMv3: 文書AIのための統一されたテキストと画像マスキングによる事前学習

Huang, Yupan ; Lv, Tengchao ; Cui, Lei ; Lu, Yutong ; Wei, Furu
LayoutLMv3: 文書AIのための統一されたテキストと画像マスキングによる事前学習
要約

自己監督学習の事前学習技術は、ドキュメントAIにおいて著しい進歩を遂げています。多モーダル事前学習モデルの多くは、マスク言語モデリング(Masked Language Modeling)目的関数を使用してテキストモーダリティでの双方向表現を学習しますが、画像モーダリティの事前学習目的関数では異なります。この相違点は、多モーダル表現学習に難易度を追加しています。本論文では、統一されたテキストと画像のマスキングを使用してドキュメントAI向けの多モーダルTransformerを事前学習するための\textbf{LayoutLMv3}を提案します。さらに、LayoutLMv3は単語-パッチアライメント(Word-Patch Alignment)目的関数で事前学習され、テキスト単語に対応する画像パッチがマスクされているかどうかを予測することでクロスモーダルアライメントを学習します。シンプルな統一アーキテクチャと学習目標により、LayoutLMv3はテキスト中心および画像中心のドキュメントAIタスク向けの汎用的な事前学習モデルとなります。実験結果は、LayoutLMv3がフォーム理解、領収書理解、ドキュメント視覚質問応答などのテキスト中心タスクだけでなく、ドキュメント画像分類やドキュメントレイアウト分析などの画像中心タスクでも最先端の性能を達成していることを示しています。コードとモデルは公開されており、以下のURLからアクセスできます。\url{https://aka.ms/layoutlmv3}

LayoutLMv3: 文書AIのための統一されたテキストと画像マスキングによる事前学習 | 最新論文 | HyperAI超神経