Omni-SMoLA : Amélioration des modèles multimodaux généralistes avec un mélange souple d'experts de faible rang

Les grands modèles multimodaux (LMMs) affichent des performances remarquables dans de nombreuses tâches. Cependant, les LMMs généralistes subissent souvent une dégradation des performances lorsqu'ils sont ajustés sur un grand ensemble de tâches. Des recherches récentes suggèrent que les architectures de Mélange d'Experts (MoE) sont utiles pour l'ajustement des instructions, mais pour des LMMs dont la taille des paramètres est d'environ O(50-100 milliards), le coût prohibitif de la duplication et du stockage des modèles experts limite sévèrement le nombre d'experts que nous pouvons utiliser. Nous proposons Omni-SMoLA, une architecture qui utilise l'approche Soft MoE pour (doucement) mélanger de nombreux experts multimodaux à faible rang, tout en évitant d'introduire un nombre significatif de nouveaux paramètres par rapport aux modèles MoE conventionnels. L'intuition centrale ici est que le grand modèle fournit une base fondamentale, tandis que différents experts légers apprennent résiduellement des connaissances spécialisées, soit par modalité, soit multimodalement. De nombreuses expériences montrent que l'approche SMoLA aide à améliorer les performances généralistes sur une large gamme de tâches génératives de vision et de langage, atteignant de nouvelles performances SoTA généralistes qui souvent égalent ou surpassent celles des LMMs spécialisés individuels, ainsi que de nouvelles performances SoTA spécialistes.