2ヶ月前
CuMo: 多モーダルLLMのスケーリングにCo-Upcycled Mixture-of-Expertsを用いる
Jiachen Li; Xinyao Wang; Sijie Zhu; Chia-Wen Kuo; Lu Xu; Fan Chen; Jitesh Jain; Humphrey Shi; Longyin Wen

要約
最近のマルチモーダル大規模言語モデル(Multimodal Large Language Models: LLMs)の進展は、主にテキスト-画像ペアデータの増加と、LLMsの強化によるマルチモーダルタスクの性能向上に焦点を当てています。しかし、これらのスケーリング手法は計算コストが高く、ビジョン側からのモデル能力向上の重要性を見落としています。Mixture-of-Experts (MoE) が言語モデルで成功裏に適用され、訓練時のモデルスケーラビリティを改善しつつ推論コストを小さなモデルと同等に保つことを受けて、CuMoを提案します。CuMoは、ビジョンエンコーダーとMLPコネクターの両方にCo-upcycled Top-K疎結合型Mixture-of-expertsブロックを取り入れることで、推論時に最小限の追加パラメータ活性化でマルチモーダルLLMsを強化します。CuMoはまずMLPブロックを事前学習し、その後視覚指示調整段階で各エキスパートを事前学習済みのMLPブロックから初期化します。補助損失関数を使用してエキスパート間でのバランスロードを確保します。CuMoはオープンソースデータセットのみを使用して訓練されたにもかかわらず、各モデルサイズグループ内のモデルを使用して様々なVQAおよび視覚指示追従ベンチマークにおいて最先端のマルチモーダルLLMsを上回る性能を示しています。CuMoのコードとモデルウェイトはオープンソースで提供されており、https://github.com/SHI-Labs/CuMo からアクセスできます。