2ヶ月前

LayoutXLM: 多言語視覚豊富な文書理解のためのマルチモーダル事前学習

Xu, Yiheng ; Lv, Tengchao ; Cui, Lei ; Wang, Guoxin ; Lu, Yijuan ; Florencio, Dinei ; Zhang, Cha ; Wei, Furu

要約

テキスト、レイアウト、画像を組み合わせたマルチモーダル事前学習が、最近視覚的に豊かな文書理解タスクにおいて最先端の性能を達成しており、異なるモーダリティ間での共同学習の大きな可能性を示しています。本論文では、多言語文書理解向けのマルチモーダル事前学習モデルであるLayoutXLMを提案します。このモデルは、視覚的に豊かな文書理解における言語の壁を克服することを目指しています。LayoutXLMの正確な評価のために、7つの言語（中国語、日本語、スペイン語、フランス語、イタリア語、ドイツ語、ポルトガル語）で形式理解サンプルを含む多言語形式理解ベンチマークデータセットXFUNDも紹介します。各言語についてキー・バリュー対が手動でラベリングされています。実験結果は、LayoutXLMモデルが既存の最先端クロスリンガル事前学習モデルよりもXFUNDデータセット上で大幅に優れた性能を発揮していることを示しています。事前学習済みのLayoutXLMモデルとXFUNDデータセットは、https://aka.ms/layoutxlm で公開されています。