il y a 2 mois

Auto-Attention avec Représentations de Position Relative

Peter Shaw; Jakob Uszkoreit; Ashish Vaswani

Résumé

En s'appuyant entièrement sur un mécanisme d'attention, le Transformer introduit par Vaswani et al. (2017) atteint des résultats de pointe en traduction automatique. Contrairement aux réseaux neuronaux récurrents et convolutifs, il ne modélise pas explicitement les informations de position relative ou absolue dans sa structure. Au lieu de cela, il nécessite l'ajout de représentations de positions absolues à ses entrées. Dans ce travail, nous présentons une approche alternative, qui étend le mécanisme d'auto-attention pour prendre efficacement en compte les représentations des positions relatives, ou des distances entre les éléments de la séquence. Sur les tâches de traduction anglais-allemand et anglais-français du WMT 2014, cette approche apporte des améliorations respectives de 1,3 BLEU et 0,3 BLEU par rapport aux représentations de positions absolues. Il est notable que la combinaison des représentations de positions relatives et absolues n'apporte aucune amélioration supplémentaire en termes de qualité de traduction. Nous décrivons une mise en œuvre efficace de notre méthode et la considérons comme une instance de mécanismes d'auto-attention sensibles aux relations qui peuvent être généralisés à des entrées arbitraires étiquetées par un graphe.