UNITER: UNiversal Image-TExt Representation Learning ユニタ:普遍的な画像-テキスト表現学習

画像とテキストの統合埋め込みは、大部分のビジョン・アンド・ランゲージ(V+L)タスクの基礎となっています。これらのタスクでは、マルチモーダルな入力が同時に処理され、視覚と言語の統合的な理解が行われます。本論文では、大規模な事前学習を経て4つの画像テキストデータセット(COCO、Visual Genome、Conceptual Captions、SBU Captions)から学習されたUNITER(ユニバーサル画像テキスト表現)を紹介します。このモデルは、統合マルチモーダル埋め込みを使用して多様な下流V+Lタスクを支援することができます。我々は4つの事前学習タスクを設計しました:マスキング言語モデル(Masked Language Modeling, MLM)、マスキング領域モデル(Masked Region Modeling, MRM; 3つのバリエント)、画像テキストマッチング(Image-Text Matching, ITM)、および単語領域アライメント(Word-Region Alignment, WRA)。以前の研究とは異なり、両モーダルに対して同時ランダムマスキングを行うのではなく、条件付きマスキングを使用しています(つまり、マスキング言語/領域モデリングは画像/テキストの完全な観測に基づいて行われます)。全体的な画像テキストアライメントのためにITMを使用するだけでなく、最適輸送理論(Optimal Transport, OT)を利用して単語と画像領域間の細かいアライメントを明示的に促進するWRAも提案しています。包括的な分析により、条件付きマスキングとOTベースのWRAがより良い事前学習に寄与することが示されました。さらに、最適な事前学習タスクの組み合わせを見つけるために詳細なアブレーションスタディを行いました。広範囲にわたる実験結果は、UNITERが6つのV+Lタスク(9以上のデータセットで評価)において新しい最先端の性能を達成していることを示しています。これらにはビジュアル質問応答、画像テキスト検索、参照表現理解、ビジュアル常識推論、ビジュアル包含関係判定、NLVR$^2$が含まれます。コードはhttps://github.com/ChenRocks/UNITER で公開されています。