HyperAIHyperAI

Command Palette

Search for a command to run...

Llama 3 Rencontre MoE : Réutilisation Efficace

Aditya Vavre Ethan He Dennis Liu Zijie Yan June Yang Nima Tajbakhsh Ashwath Aithal

Résumé

L’augmentation de la taille des modèles de langage (LLM) améliore significativement leurs performances, mais entraîne des coûts computationnels prohibitifs. Les modèles à Mélanges d’Experts (MoE) offrent une alternative efficace, permettant d’accroître la capacité sans une augmentation proportionnelle des besoins en calcul. Toutefois, l’entraînement de modèles MoE depuis zéro soulève des défis tels que le surajustement et l’instabilité du routage. Nous proposons une recette d’entraînement efficace s’appuyant sur des points de contrôle pré-entraînés à densité, permettant d’entraîner un modèle MoE à 8 Experts avec un routage Top-2 à partir de Llama 3-8B, avec moins de 1 % des ressources computationnelles habituellement nécessaires pour l’entraînement préalable. Notre approche améliore les performances sur des benchmarks académiques, obtenant une augmentation de 2 % de la précision en mode 0-shot sur MMLU, tout en atteignant un taux d’utilisation des FLOPs du modèle (MFU) de 46,8 % durant l’entraînement grâce à notre cadre. Nous intégrons également une fonctionnalité d’upcycling en ligne dans NeMo, permettant une utilisation fluide des poids pré-entraînés, favorisant ainsi le développement coûteux de modèles MoE à haute capacité.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp