il y a 2 mois

CuMo : Évolutivité des LLM multimodaux avec un mélange d'experts co-recyclés

Jiachen Li; Xinyao Wang; Sijie Zhu; Chia-Wen Kuo; Lu Xu; Fan Chen; Jitesh Jain; Humphrey Shi; Longyin Wen

Résumé

Les récentes avancées dans les Modèles de Langue Multimodaux à Grande Échelle (LLMs) se sont principalement concentrées sur l'augmentation des données de paires texte-image et l'amélioration des LLMs pour améliorer les performances sur les tâches multimodales. Cependant, ces approches d'extension sont coûteuses en termes de calcul et négligent l'importance d'améliorer les capacités du modèle du côté de la vision. Inspirés par les applications réussies du Mélange d'Experts (MoE) dans les LLMs, qui améliore la scalabilité du modèle pendant l'entraînement tout en maintenant des coûts d'inférence similaires à ceux des modèles plus petits, nous proposons CuMo. CuMo intègre des blocs Co-recyclés Top-K à activation éparse dans le codificateur visuel et le connecteur MLP, ce qui permet d'améliorer les LLMs multimodaux avec un nombre minimal de paramètres supplémentaires activés lors de l'inférence. CuMo pré-entraîne d'abord les blocs MLP, puis initialise chaque expert dans le bloc MoE à partir du bloc MLP pré-entraîné lors de la phase d'ajustement des instructions visuelles. Des pertes auxiliaires sont utilisées pour garantir une charge équilibrée des experts. CuMo surpasses les modèles LLMs multimodaux de pointe sur diverses évaluations VQA et suivant des instructions visuelles, en utilisant des modèles au sein de chaque groupe de taille, tout en étant entraîné exclusivement sur des jeux de données open source. Le code et les poids du modèle CuMo sont open source et disponibles sur https://github.com/SHI-Labs/CuMo.