HyperAIHyperAI

Command Palette

Search for a command to run...

GLaM : Extension efficace des modèles linguistiques grâce à un mélange d'experts

Résumé

L’augmentation des modèles linguistiques grâce à davantage de données, de ressources informatiques et de paramètres a permis des progrès significatifs dans le traitement du langage naturel. Par exemple, grâce à cette montée en échelle, GPT-3 a pu obtenir de bons résultats sur des tâches d’apprentissage in-context. Toutefois, l’entraînement de ces grands modèles denses nécessite des quantités importantes de ressources informatiques. Dans cet article, nous proposons et développons une famille de modèles linguistiques appelée GLaM (Generalist Language Model), qui utilise une architecture à mélanges d’experts à activation sparse pour augmenter la capacité du modèle tout en réduisant considérablement les coûts d’entraînement par rapport aux variantes denses. Le modèle GLaM le plus volumineux compte 1,2 trillion de paramètres, soit environ 7 fois plus que GPT-3. Il consomme seulement un tiers de l’énergie nécessaire à l’entraînement de GPT-3 et nécessite seulement la moitié des opérations flottantes (flops) pour l’inférence, tout en atteignant de meilleures performances globales en mode zéro-shot et en mode one-shot sur 29 tâches de traitement du langage naturel.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
GLaM : Extension efficace des modèles linguistiques grâce à un mélange d'experts | Articles | HyperAI