HyperAIHyperAI

Command Palette

Search for a command to run...

CuMo: 多モーダルLLMのスケーリングにCo-Upcycled Mixture-of-Expertsを用いる

Jiachen Li Xinyao Wang Sijie Zhu Chia-Wen Kuo Lu Xu Fan Chen Jitesh Jain Humphrey Shi Longyin Wen

概要

最近のマルチモーダル大規模言語モデル(Multimodal Large Language Models: LLMs)の進展は、主にテキスト-画像ペアデータの増加と、LLMsの強化によるマルチモーダルタスクの性能向上に焦点を当てています。しかし、これらのスケーリング手法は計算コストが高く、ビジョン側からのモデル能力向上の重要性を見落としています。Mixture-of-Experts (MoE) が言語モデルで成功裏に適用され、訓練時のモデルスケーラビリティを改善しつつ推論コストを小さなモデルと同等に保つことを受けて、CuMoを提案します。CuMoは、ビジョンエンコーダーとMLPコネクターの両方にCo-upcycled Top-K疎結合型Mixture-of-expertsブロックを取り入れることで、推論時に最小限の追加パラメータ活性化でマルチモーダルLLMsを強化します。CuMoはまずMLPブロックを事前学習し、その後視覚指示調整段階で各エキスパートを事前学習済みのMLPブロックから初期化します。補助損失関数を使用してエキスパート間でのバランスロードを確保します。CuMoはオープンソースデータセットのみを使用して訓練されたにもかかわらず、各モデルサイズグループ内のモデルを使用して様々なVQAおよび視覚指示追従ベンチマークにおいて最先端のマルチモーダルLLMsを上回る性能を示しています。CuMoのコードとモデルウェイトはオープンソースで提供されており、https://github.com/SHI-Labs/CuMo からアクセスできます。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています