Command Palette
Search for a command to run...
L'Attention, c'est tout ce dont vous avez besoin
L'Attention, c'est tout ce dont vous avez besoin
Résumé
Les modèles dominants de transduction de séquences reposent sur des réseaux neuronaux complexes, récurrents ou convolutifs, dans une architecture encodage-décodage. Les meilleurs modèles intègrent également, entre l’encodeur et le décodeur, un mécanisme d’attention. Nous proposons une nouvelle architecture réseau simple, le Transformer, fondée exclusivement sur des mécanismes d’attention, éliminant entièrement les récurrences et les convolutions. Des expériences menées sur deux tâches de traduction automatique montrent que ces modèles offrent une qualité supérieure tout en étant plus parallélisables et nécessitant une durée d’entraînement significativement réduite. Notre modèle atteint un score de 28,4 BLEU sur la tâche de traduction anglais-allemand du WMT 2014, dépassant ainsi les résultats existants les plus performants, y compris les ensembles, de plus de 2 BLEU. Sur la tâche de traduction anglais-français du WMT 2014, notre modèle établit un nouveau record d’état de l’art pour un modèle unique, avec un score BLEU de 41,8 après 3,5 jours d’entraînement sur huit GPU, soit une fraction très réduite des coûts d’entraînement des meilleurs modèles décrits dans la littérature. Nous démontrons que le Transformer se généralise bien à d’autres tâches en l’appliquant avec succès à l’analyse syntaxique des constituants en anglais, aussi bien avec de grandes que avec des quantités limitées de données d’entraînement.