HyperAIHyperAI

Command Palette

Search for a command to run...

VLMo:モダリティ・エキスパート混合を用いた統合型視覚・言語事前学習

Hangbo Bao Wenhui Wang Li Dong Qiang Liu Owais Khan Mohammed Kriti Aggarwal Subhojit Som Furu Wei

概要

我々は、モジュラーなTransformerネットワークを用いて、二重エンコーダと融合エンコーダを統合的に学習する統一型の視覚・言語事前学習モデル(VLMo)を提案する。具体的には、各ブロックにモダリティ固有のエキスパート群と共有された自己注意(self-attention)層を備えた「モダリティエキスパートの混合(Mixture-of-Modality-Experts; MoME)Transformer」を導入した。MoMEの柔軟なモデル構造により、事前学習済みのVLMoは、視覚・言語分類タスク向けに融合エンコーダとして微調整可能であると同時に、効率的な画像-テキスト検索に向けた二重エンコーダとしても利用可能である。さらに、画像のみやテキストのみの大量データを、画像-テキストペアに加えて効果的に活用する段階的(staged)事前学習戦略を提案する。実験結果から、VLMoはVQA、NLVR2、画像-テキスト検索など、多様な視覚・言語タスクにおいて最先端の性能を達成した。コードおよび事前学習済みモデルは、https://aka.ms/vlmo にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています