HyperAIHyperAI

Command Palette

Search for a command to run...

Omni-SMoLA: ソフト低ランク専門家混合による汎用マルチモーダルモデルの強化

Jialin Wu Xia Hu Yaqing Wang Bo Pang Radu Soricut

概要

大規模マルチモーダルモデル(LMM)は、多くのタスクにおいて卓越した性能を示しています。しかし、汎用的なLMMは、多数のタスクに対して微調整を行うと、性能が低下する傾向があります。最近の研究では、エキスパートの混合(Mixture of Experts: MoE)アーキテクチャが指示微調整に有用であることが示唆されていますが、パラメータ数が約O(50-100B)程度のLMMの場合、エキスパートモデルを複製および保存するコストが高いため、使用できるエキスパートの数が大幅に制限されます。そこで我々はOmni-SMoLAというアーキテクチャを提案します。このアーキテクチャは、ソフトMoEアプローチを使用して(柔軟に)多くの低ランクマルチモーダルエキスパートを混合し、従来のMoEモデルと比較して大量の新しいパラメータを導入することなく機能します。ここでの中心的な直感は、大規模なモデルが基盤となる骨格を提供し、異なる軽量なエキスパートがモーダルごとにまたはマルチモーダルで専門的な知識を残差的に学習することです。広範囲にわたる実験結果から、SMoLAアプローチは生成的な視覚言語タスクにおける汎用性能の向上に寄与することが示されています。これにより、新しい最先端(State-of-the-Art: SoTA)の汎用性能が達成され、単一の専門化されたLMMベースラインと同等かそれ以上の性能を発揮することがしばしば確認されています。また、新しいSoTAの専門性能も達成しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Omni-SMoLA: ソフト低ランク専門家混合による汎用マルチモーダルモデルの強化 | 記事 | HyperAI超神経