L'Attention est Tout ce dont Vous Avez Besoin

Les modèles de transduction séquentielle dominants sont basés sur des réseaux neuronaux complexes récurrents ou à convolution dans une configuration encodeur-décodeur. Les modèles les plus performants établissent également une connexion entre l'encodeur et le décodeur par le biais d'un mécanisme d'attention. Nous proposons une nouvelle architecture de réseau simple, le Transformer, qui repose uniquement sur des mécanismes d'attention, supprimant complètement la récurrence et les convolutions. Des expériences menées sur deux tâches de traduction automatique montrent que ces modèles sont supérieurs en termes de qualité tout en étant plus parallélisables et nécessitant un temps de formation significativement moindre. Notre modèle atteint un score BLEU de 28,4 sur la tâche de traduction anglais-allemand du WMT 2014, améliorant les résultats existants, y compris ceux des ensembles, de plus de 2 points BLEU. Sur la tâche de traduction anglais-français du WMT 2014, notre modèle établit un nouveau record pour un modèle unique avec un score BLEU de 41,8 après une formation de 3,5 jours sur huit GPU, ce qui représente une fraction très petite des coûts de formation des meilleurs modèles décrits dans la littérature. Nous démontrons que le Transformer se généralise bien à d'autres tâches en l'appliquant avec succès à l'analyse syntaxique constituante anglaise, tant avec des données d'entraînement abondantes qu'avec des données limitées.