Approches efficaces de la traduction automatique neuronale basée sur l'attention

Un mécanisme d'attention a récemment été utilisé pour améliorer la traduction automatique neuronale (NMT) en se concentrant de manière sélective sur certaines parties de la phrase source lors de la traduction. Cependant, peu de travaux ont exploré des architectures utiles pour la NMT basée sur l'attention. Cet article examine deux classes simples et efficaces de mécanismes d'attention : une approche globale qui porte toujours son attention sur tous les mots de la source et une approche locale qui ne considère qu'un sous-ensemble des mots de la source à la fois. Nous démontrons l'efficacité des deux approches sur les tâches de traduction du WMT entre l'anglais et l'allemand dans les deux sens. Avec l'attention locale, nous obtenons un gain significatif de 5,0 points BLEU par rapport aux systèmes sans attention qui intègrent déjà des techniques connues comme le dropout. Notre modèle combiné utilisant différentes architectures d'attention a établi un nouveau résultat d'état de l'art dans la tâche de traduction anglais-allemand du WMT'15 avec 25,9 points BLEU, une amélioration de 1,0 point BLEU par rapport au système existant le plus performant soutenu par la NMT et un rerankeur d'n-grammes.