GLaM : Extension efficace des modèles linguistiques grâce à un mélange d'experts

L’augmentation des modèles linguistiques grâce à davantage de données, de ressources informatiques et de paramètres a permis des progrès significatifs dans le traitement du langage naturel. Par exemple, grâce à cette montée en échelle, GPT-3 a pu obtenir de bons résultats sur des tâches d’apprentissage in-context. Toutefois, l’entraînement de ces grands modèles denses nécessite des quantités importantes de ressources informatiques. Dans cet article, nous proposons et développons une famille de modèles linguistiques appelée GLaM (Generalist Language Model), qui utilise une architecture à mélanges d’experts à activation sparse pour augmenter la capacité du modèle tout en réduisant considérablement les coûts d’entraînement par rapport aux variantes denses. Le modèle GLaM le plus volumineux compte 1,2 trillion de paramètres, soit environ 7 fois plus que GPT-3. Il consomme seulement un tiers de l’énergie nécessaire à l’entraînement de GPT-3 et nécessite seulement la moitié des opérations flottantes (flops) pour l’inférence, tout en atteignant de meilleures performances globales en mode zéro-shot et en mode one-shot sur 29 tâches de traitement du langage naturel.