il y a 9 jours

GLaM : Extension efficace des modèles linguistiques grâce à un mélange d'experts

Nan Du, Yanping Huang, Andrew M. Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, Maxim Krikun, Yanqi Zhou, Adams Wei Yu, Orhan Firat, Barret Zoph, Liam Fedus, Maarten Bosma, Zongwei Zhou, Tao Wang, Yu Emma Wang, Kellie Webster, Marie Pellat, Kevin Robinson, Kathleen Meier-Hellstern, Toju Duke, Lucas Dixon, Kun Zhang, Quoc V Le, Yonghui Wu, Zhifeng Chen, Claire Cui

Voir les détails de l'article

GLaM : Extension efficace des modèles linguistiques grâce à un mélange d'experts

Résumé

L’augmentation des modèles linguistiques grâce à davantage de données, de ressources informatiques et de paramètres a permis des progrès significatifs dans le traitement du langage naturel. Par exemple, grâce à cette montée en échelle, GPT-3 a pu obtenir de bons résultats sur des tâches d’apprentissage in-context. Toutefois, l’entraînement de ces grands modèles denses nécessite des quantités importantes de ressources informatiques. Dans cet article, nous proposons et développons une famille de modèles linguistiques appelée GLaM (Generalist Language Model), qui utilise une architecture à mélanges d’experts à activation sparse pour augmenter la capacité du modèle tout en réduisant considérablement les coûts d’entraînement par rapport aux variantes denses. Le modèle GLaM le plus volumineux compte 1,2 trillion de paramètres, soit environ 7 fois plus que GPT-3. Il consomme seulement un tiers de l’énergie nécessaire à l’entraînement de GPT-3 et nécessite seulement la moitié des opérations flottantes (flops) pour l’inférence, tout en atteignant de meilleures performances globales en mode zéro-shot et en mode one-shot sur 29 tâches de traitement du langage naturel.