2ヶ月前

Omni-SMoLA: ソフト低ランク専門家混合による汎用マルチモーダルモデルの強化

Wu, Jialin ; Hu, Xia ; Wang, Yaqing ; Pang, Bo ; Soricut, Radu

要約

大規模マルチモーダルモデル（LMM）は、多くのタスクにおいて卓越した性能を示しています。しかし、汎用的なLMMは、多数のタスクに対して微調整を行うと、性能が低下する傾向があります。最近の研究では、エキスパートの混合（Mixture of Experts: MoE）アーキテクチャが指示微調整に有用であることが示唆されていますが、パラメータ数が約O(50-100B)程度のLMMの場合、エキスパートモデルを複製および保存するコストが高いため、使用できるエキスパートの数が大幅に制限されます。そこで我々はOmni-SMoLAというアーキテクチャを提案します。このアーキテクチャは、ソフトMoEアプローチを使用して（柔軟に）多くの低ランクマルチモーダルエキスパートを混合し、従来のMoEモデルと比較して大量の新しいパラメータを導入することなく機能します。ここでの中心的な直感は、大規模なモデルが基盤となる骨格を提供し、異なる軽量なエキスパートがモーダルごとにまたはマルチモーダルで専門的な知識を残差的に学習することです。広範囲にわたる実験結果から、SMoLAアプローチは生成的な視覚言語タスクにおける汎用性能の向上に寄与することが示されています。これにより、新しい最先端（State-of-the-Art: SoTA）の汎用性能が達成され、単一の専門化されたLMMベースラインと同等かそれ以上の性能を発揮することがしばしば確認されています。また、新しいSoTAの専門性能も達成しています。