HyperAIHyperAI
il y a un mois

Primer : Recherche de Transformers efficaces pour la modélisation linguistique

David R. So; Wojciech Mańke; Hanxiao Liu; Zihang Dai; Noam Shazeer; Quoc V. Le
Primer : Recherche de Transformers efficaces pour la modélisation linguistique
Résumé

Les grands modèles Transformer ont été au cœur des récentes avancées en traitement automatique des langues naturelles. Cependant, les coûts d'entraînement et d'inférence de ces modèles ont rapidement augmenté et sont devenus prohibitivement élevés. Notre objectif ici est de réduire les coûts des Transformers en recherchant une variante plus efficace. Contrairement aux approches précédentes, notre recherche est effectuée à un niveau inférieur, sur les primitives qui définissent un programme TensorFlow Transformer. Nous avons identifié une architecture, nommée Primer, qui présente un coût d'entraînement moindre que le Transformer original et d'autres variantes pour le modèle de langage auto-régressif. Les améliorations apportées par Primer peuvent être principalement attribuées à deux modifications simples : le carré des activations ReLU et l'ajout d'une couche de convolution profonde après chaque projection Q, K et V dans l'auto-attention.Les expériences montrent que les gains de Primer par rapport au Transformer augmentent avec la taille du calcul et suivent une loi de puissance en termes de qualité pour les tailles optimales du modèle. Nous avons également vérifié expérimentalement que Primer peut être intégré à différentes bases de code pour accélérer considérablement l'entraînement sans réglages supplémentaires. Par exemple, pour une taille de paramètres de 500 millions, Primer améliore l'architecture T5 originale sur le modèle de langage auto-régressif C4, réduisant le coût d'entraînement par 4 fois. De plus, le coût d'entraînement réduit signifie que Primer nécessite beaucoup moins de ressources informatiques pour atteindre une performance cible en mode "one-shot". Ainsi, dans une configuration à 1,9 milliard de paramètres similaire à celle du GPT-3 XL, Primer utilise seulement 1/3 des ressources informatiques d'entraînement pour obtenir la même performance "one-shot" que le Transformer. Nous mettons nos modèles et plusieurs comparaisons dans T5 à disposition sous licence open source afin de faciliter la reproductibilité des résultats.

Primer : Recherche de Transformers efficaces pour la modélisation linguistique | Articles de recherche récents | HyperAI