Modélisation linguistique efficace avec un modèle MLP épars

Les architectures entièrement basées sur des MLP ont suscité un intérêt croissant en tant que alternative aux modèles fondés sur l’attention. En traitement du langage naturel (NLP), des travaux récents tels que gMLP montrent que les MLP entièrement dédiés peuvent égaler les Transformers en modélisation linguistique, mais restent encore inférieurs sur les tâches en aval. Dans ce travail, nous analysons les limites d’expressivité des MLP, et proposons des MLP à activation éparse via un mélange d’experts (MoE) dans les dimensions des caractéristiques ainsi que des entrées (tokens). Ces MLP entièrement éparses augmentent significativement la capacité et l’expressivité du modèle tout en maintenant le coût de calcul constant. Nous surmontons des défis critiques liés à l’intégration du calcul conditionnel grâce à deux stratégies de routage. Le MLP entièrement éparse proposé améliore la perplexité en modélisation linguistique et atteint une amélioration allant jusqu’à 2× en efficacité d’entraînement par rapport aux MoE basés sur les Transformers (GShard, Switch Transformer, Base Layers et HASH Layers), ainsi qu’aux Transformers denses et aux MLP entièrement denses. Enfin, nous évaluons sa performance en apprentissage in-situ sans exemple (zero-shot) sur six tâches en aval, et constatons qu’elle dépasse les MoE basés sur les Transformers ainsi que les Transformers denses.