HyperAIHyperAI
il y a 3 mois

Llama 3 Rencontre MoE : Réutilisation Efficace

Aditya Vavre, Ethan He, Dennis Liu, Zijie Yan, June Yang, Nima Tajbakhsh, Ashwath Aithal
Llama 3 Rencontre MoE : Réutilisation Efficace
Résumé

L’augmentation de la taille des modèles de langage (LLM) améliore significativement leurs performances, mais entraîne des coûts computationnels prohibitifs. Les modèles à Mélanges d’Experts (MoE) offrent une alternative efficace, permettant d’accroître la capacité sans une augmentation proportionnelle des besoins en calcul. Toutefois, l’entraînement de modèles MoE depuis zéro soulève des défis tels que le surajustement et l’instabilité du routage. Nous proposons une recette d’entraînement efficace s’appuyant sur des points de contrôle pré-entraînés à densité, permettant d’entraîner un modèle MoE à 8 Experts avec un routage Top-2 à partir de Llama 3-8B, avec moins de 1 % des ressources computationnelles habituellement nécessaires pour l’entraînement préalable. Notre approche améliore les performances sur des benchmarks académiques, obtenant une augmentation de 2 % de la précision en mode 0-shot sur MMLU, tout en atteignant un taux d’utilisation des FLOPs du modèle (MFU) de 46,8 % durant l’entraînement grâce à notre cadre. Nous intégrons également une fonctionnalité d’upcycling en ligne dans NeMo, permettant une utilisation fluide des poids pré-entraînés, favorisant ainsi le développement coûteux de modèles MoE à haute capacité.