2ヶ月前

生成多模态モデルは文脈学習者である

Quan Sun; Yufeng Cui; Xiaosong Zhang; Fan Zhang; Qiying Yu; Zhengxiong Luo; Yueze Wang; Yongming Rao; Jingjing Liu; Tiejun Huang; Xinlong Wang
生成多模态モデルは文脈学習者である
要約

人間が文脈の中で多モーダルタスクを容易に解決する能力(つまり、数回のデモンストレーションや単純な指示だけで)、これは現在の多モーダルシステムが大いに模倣することに苦労している領域である。本研究では、大規模な多モーダルモデルの文脈依存的な学習能力が、効果的なスケーリングアップによって大幅に向上することを示す。私たちはEmu2という生成型多モーダルモデルを紹介し、このモデルは370億のパラメータを持ち、統一された自己回帰目的関数で大規模な多モーダルシーケンスに対して訓練されている。Emu2は強力な多モーダル文脈依存学習能力を示しており、視覚的なプロンプティングやオブジェクトに基づく生成など、即座の推論が必要となるタスクを解決する能力も見られる。このモデルは少ショット設定における複数の多モーダル理解タスクにおいて新しい記録を達成した。特定の指示に従うように微調整された場合、Emu2は大規模な多モーダルモデル向けの質問応答ベンチマークやオープンエンド型主題駆動生成などの難易度の高いタスクでも新たな最先端性能を達成する。これらの成果は、Emu2が幅広い多モーダルタスクに対するベースモデルおよび汎用インターフェースとして機能できることを示している。コードとモデルは公開されており、今後の研究を促進するために利用可能である。以上が翻訳となります。

生成多模态モデルは文脈学習者である | 最新論文 | HyperAI超神経