il y a 6 mois

Résumé

L’augmentation de la taille des modèles de langage (LLM) améliore significativement leurs performances, mais entraîne des coûts computationnels prohibitifs. Les modèles à Mélanges d’Experts (MoE) offrent une alternative efficace, permettant d’accroître la capacité sans une augmentation proportionnelle des besoins en calcul. Toutefois, l’entraînement de modèles MoE depuis zéro soulève des défis tels que le surajustement et l’instabilité du routage. Nous proposons une recette d’entraînement efficace s’appuyant sur des points de contrôle pré-entraînés à densité, permettant d’entraîner un modèle MoE à 8 Experts avec un routage Top-2 à partir de Llama 3-8B, avec moins de 1 % des ressources computationnelles habituellement nécessaires pour l’entraînement préalable. Notre approche améliore les performances sur des benchmarks académiques, obtenant une augmentation de 2 % de la précision en mode 0-shot sur MMLU, tout en atteignant un taux d’utilisation des FLOPs du modèle (MFU) de 46,8 % durant l’entraînement grâce à notre cadre. Nous intégrons également une fonctionnalité d’upcycling en ligne dans NeMo, permettant une utilisation fluide des poids pré-entraînés, favorisant ainsi le développement coûteux de modèles MoE à haute capacité.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

LLM

Entraînement Du Modèle

Transformer

Approche/Framework

Aditya Vavre Ethan He Dennis Liu Zijie Yan June Yang Nima Tajbakhsh Ashwath Aithal

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

LLM

Entraînement Du Modèle

Transformer

Approche/Framework

Aditya Vavre Ethan He Dennis Liu Zijie Yan June Yang Nima Tajbakhsh Ashwath Aithal

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Llama 3 Rencontre MoE : Réutilisation Efficace | Articles | HyperAI

Command Palette

Llama 3 Rencontre MoE : Réutilisation Efficace

Aditya Vavre Ethan He Dennis Liu Zijie Yan June Yang Nima Tajbakhsh Ashwath Aithal

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Llama 3 Rencontre MoE : Réutilisation Efficace

Aditya Vavre Ethan He Dennis Liu Zijie Yan June Yang Nima Tajbakhsh Ashwath Aithal

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Llama 3 Rencontre MoE : Réutilisation Efficace

Aditya Vavre Ethan He Dennis Liu Zijie Yan June Yang Nima Tajbakhsh Ashwath Aithal

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters