2ヶ月前
ERNIE-Layout: レイアウト知識を強化した視覚的に豊かな文書理解のための事前学習
Qiming Peng; Yinxu Pan; Wenjin Wang; Bin Luo; Zhenyu Zhang; Zhengjie Huang; Teng Hu; Weichong Yin; Yongfeng Chen; Yin Zhang; Shikun Feng; Yu Sun; Hao Tian; Hua Wu; Haifeng Wang

要約
近年、視覚的に豊かな文書理解における事前学習技術の台頭と成功が見られています。しかし、既存の方法の多くはレイアウトを中心とした知識の体系的な抽出や利用が不足しており、最適でない性能をもたらしています。本論文では、テキスト、レイアウト、画像の特徴を組み合わせてより良い表現を学習するため、全体のワークフローにおいてレイアウト知識強化を行う新しい文書事前学習ソリューションであるERNIE-Layoutを提案します。具体的には、まずシリアライゼーション段階で入力シーケンスを再配置し、その後相関する事前学習タスクとして読み順予測を提示して文書の適切な読み順を学習します。モデルのレイアウト認識能力を向上させるために、マルチモーダルトランスフォーマーに空間認識型分離注意機構(spatial-aware disentangled attention)を取り入れ、事前学習フェーズに置き換え領域予測タスク(replaced regions prediction task)を導入しました。実験結果は、ERNIE-Layoutが様々な下流タスクにおいて優れた性能を達成し、重要な情報抽出、文書画像分類、文書質問応答データセットにおいて新たな最先端(state-of-the-art)を樹立していることを示しています。コードとモデルはhttp://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layoutで公開されています。