HyperAIHyperAI

Command Palette

Search for a command to run...

LayoutXLM: 多言語視覚豊富な文書理解のためのマルチモーダル事前学習

Yiheng Xu Tengchao Lv Lei Cui Guoxin Wang Yijuan Lu Dinei Florencio Cha Zhang Furu Wei

概要

テキスト、レイアウト、画像を組み合わせたマルチモーダル事前学習が、最近視覚的に豊かな文書理解タスクにおいて最先端の性能を達成しており、異なるモーダリティ間での共同学習の大きな可能性を示しています。本論文では、多言語文書理解向けのマルチモーダル事前学習モデルであるLayoutXLMを提案します。このモデルは、視覚的に豊かな文書理解における言語の壁を克服することを目指しています。LayoutXLMの正確な評価のために、7つの言語(中国語、日本語、スペイン語、フランス語、イタリア語、ドイツ語、ポルトガル語)で形式理解サンプルを含む多言語形式理解ベンチマークデータセットXFUNDも紹介します。各言語についてキー・バリュー対が手動でラベリングされています。実験結果は、LayoutXLMモデルが既存の最先端クロスリンガル事前学習モデルよりもXFUNDデータセット上で大幅に優れた性能を発揮していることを示しています。事前学習済みのLayoutXLMモデルとXFUNDデータセットは、https://aka.ms/layoutxlm で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています