11日前

VLMo:モダリティ・エキスパート混合を用いた統合型視覚・言語事前学習

Hangbo Bao, Wenhui Wang, Li Dong, Qiang Liu, Owais Khan Mohammed, Kriti Aggarwal, Subhojit Som, Furu Wei
VLMo:モダリティ・エキスパート混合を用いた統合型視覚・言語事前学習
要約

我々は、モジュラーなTransformerネットワークを用いて、二重エンコーダと融合エンコーダを統合的に学習する統一型の視覚・言語事前学習モデル(VLMo)を提案する。具体的には、各ブロックにモダリティ固有のエキスパート群と共有された自己注意(self-attention)層を備えた「モダリティエキスパートの混合(Mixture-of-Modality-Experts; MoME)Transformer」を導入した。MoMEの柔軟なモデル構造により、事前学習済みのVLMoは、視覚・言語分類タスク向けに融合エンコーダとして微調整可能であると同時に、効率的な画像-テキスト検索に向けた二重エンコーダとしても利用可能である。さらに、画像のみやテキストのみの大量データを、画像-テキストペアに加えて効果的に活用する段階的(staged)事前学習戦略を提案する。実験結果から、VLMoはVQA、NLVR2、画像-テキスト検索など、多様な視覚・言語タスクにおいて最先端の性能を達成した。コードおよび事前学習済みモデルは、https://aka.ms/vlmo にて公開されている。

VLMo:モダリティ・エキスパート混合を用いた統合型視覚・言語事前学習 | 最新論文 | HyperAI超神経