Attention conjointe source-cible avec contraintes de localité

Les modèles de traduction neuronale dominants sont basés sur la structure encodeur-décodeur, et beaucoup d'entre eux s'appuient sur un champ récepteur non contraint sur les séquences source et cible. Dans cet article, nous étudions une nouvelle architecture qui rompt avec ces deux conventions. Notre architecture simplifiée se compose de la partie décodeur d'un modèle transformer, basée sur l'auto-attention, mais avec des contraintes de localité appliquées au champ récepteur de l'attention. Pour l'entraînement, les phrases source et cible sont toutes deux fournies en entrée au réseau, qui est entraîné comme un modèle de langage. Au moment de l'inférence, les jetons cibles sont prédits de manière autoregressive à partir de la séquence source comme jetons précédents. Le modèle proposé atteint un nouveau niveau d'excellence avec un score BLEU de 35,7 sur le corpus IWSLT'14 allemand-anglais et égale les meilleurs résultats rapportés dans la littérature pour les tâches de traduction WMT'14 anglais-allemand et WMT'14 anglais-français.