HyperAIHyperAI

Command Palette

Search for a command to run...

LayoutLMv3: 文書AIのための統一されたテキストと画像マスキングによる事前学習

Yupan Huang Tengchao Lv Lei Cui Yutong Lu Furu Wei

概要

自己監督学習の事前学習技術は、ドキュメントAIにおいて著しい進歩を遂げています。多モーダル事前学習モデルの多くは、マスク言語モデリング(Masked Language Modeling)目的関数を使用してテキストモーダリティでの双方向表現を学習しますが、画像モーダリティの事前学習目的関数では異なります。この相違点は、多モーダル表現学習に難易度を追加しています。本論文では、統一されたテキストと画像のマスキングを使用してドキュメントAI向けの多モーダルTransformerを事前学習するための\textbf{LayoutLMv3}を提案します。さらに、LayoutLMv3は単語-パッチアライメント(Word-Patch Alignment)目的関数で事前学習され、テキスト単語に対応する画像パッチがマスクされているかどうかを予測することでクロスモーダルアライメントを学習します。シンプルな統一アーキテクチャと学習目標により、LayoutLMv3はテキスト中心および画像中心のドキュメントAIタスク向けの汎用的な事前学習モデルとなります。実験結果は、LayoutLMv3がフォーム理解、領収書理解、ドキュメント視覚質問応答などのテキスト中心タスクだけでなく、ドキュメント画像分類やドキュメントレイアウト分析などの画像中心タスクでも最先端の性能を達成していることを示しています。コードとモデルは公開されており、以下のURLからアクセスできます。\url{https://aka.ms/layoutlmv3}


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています