17日前
mPLUG:クロスモーダルスキップ接続を用いた効果的で効率的な視覚言語学習
Chenliang Li, Haiyang Xu, Junfeng Tian, Wei Wang, Ming Yan, Bin Bi, Jiabo Ye, Hehong Chen, Guohai Xu, Zheng Cao, Ji Zhang, Songfang Huang, Fei Huang, Jingren Zhou, Luo Si

要約
大規模な事前学習済み基盤モデル(foundation models)は、人工知能(AI)システム構築の新たなパラダイムとして注目されており、さまざまな下流タスクに迅速に適応可能な特徴を持つ。本論文では、異種モーダルな理解および生成を両立する新しい視覚言語基盤モデル「mPLUG」を提案する。既存の多くの事前学習モデルは、異種モーダル統合における長い視覚シーケンスによって引き起こされる計算効率の低さや情報の非対称性といった問題を抱えている。これらの課題に対処するため、mPLUGは新たな異種モーダルスキップ接続(skip-connections)を導入した効果的かつ効率的な視覚言語アーキテクチャを採用している。このスキップ接続は、視覚側における高コストな完全自己注意(full self-attention)処理を回避するため、層間のショートカットを構築することで、特定の層数をスキップする仕組みを実現している。mPLUGは、大規模な画像-テキストペアデータセットを用いて、識別的(discriminative)および生成的(generative)な目的関数を統合的に最適化することで、エンド・ツー・エンドで事前学習が行われている。このモデルは、画像キャプション生成、画像-テキスト検索、視覚的接地(visual grounding)、視覚質問応答(visual question answering)など、幅広い視覚言語下流タスクにおいて、最先端の性能を達成している。さらに、mPLUGは複数の動画-言語タスクに対して直接ゼロショット(zero-shot)転移が可能であり、優れた汎化能力を示している。