il y a un mois

Le Transformer Évolué

David R. So; Chen Liang; Quoc V. Le

Résumé

Des travaux récents ont mis en évidence la puissance de l'architecture Transformer pour les tâches de séquence, tandis que, simultanément, la recherche d'architecture neuronale (NAS) a commencé à surpasser les modèles conçus par des humains. Notre objectif est d'appliquer la NAS pour rechercher une alternative supérieure au Transformer. Nous construisons d'abord un vaste espace de recherche inspiré des avancées récentes dans les modèles de séquence à alimentation directe, puis nous lançons une recherche d'architecture évolutionniste en démarrant chaudement en semant notre population initiale avec le Transformer. Pour effectuer directement la recherche sur la tâche de traduction anglais-allemand WMT 2014, qui est coûteuse en termes de calcul, nous développons la méthode des Barrières Dynamiques progressives, qui nous permet d'allouer dynamiquement plus de ressources aux modèles candidats prometteurs. L'architecture trouvée lors de nos expériences -- le Transformer Évolué -- montre des améliorations constantes par rapport au Transformer sur quatre tâches linguistiques bien établies : WMT 2014 anglais-allemand, WMT 2014 anglais-français, WMT 2014 anglais-tchèque et LM1B. À grande échelle, le Transformer Évolué établit un nouveau record du score BLEU de 29,8 sur WMT 2014 anglais-allemand ; à plus petite échelle, il atteint la même qualité que le Transformer original « grand » avec 37,6 % moins de paramètres et dépasse le Transformer de 0,7 point BLEU pour une taille de modèle adaptée aux appareils mobiles de 7 millions de paramètres.