HyperAIHyperAI

Command Palette

Search for a command to run...

Auto-Attention avec Représentations de Position Relative

Peter Shaw Jakob Uszkoreit Ashish Vaswani

Résumé

En s'appuyant entièrement sur un mécanisme d'attention, le Transformer introduit par Vaswani et al. (2017) atteint des résultats de pointe en traduction automatique. Contrairement aux réseaux neuronaux récurrents et convolutifs, il ne modélise pas explicitement les informations de position relative ou absolue dans sa structure. Au lieu de cela, il nécessite l'ajout de représentations de positions absolues à ses entrées. Dans ce travail, nous présentons une approche alternative, qui étend le mécanisme d'auto-attention pour prendre efficacement en compte les représentations des positions relatives, ou des distances entre les éléments de la séquence. Sur les tâches de traduction anglais-allemand et anglais-français du WMT 2014, cette approche apporte des améliorations respectives de 1,3 BLEU et 0,3 BLEU par rapport aux représentations de positions absolues. Il est notable que la combinaison des représentations de positions relatives et absolues n'apporte aucune amélioration supplémentaire en termes de qualité de traduction. Nous décrivons une mise en œuvre efficace de notre méthode et la considérons comme une instance de mécanismes d'auto-attention sensibles aux relations qui peuvent être généralisés à des entrées arbitraires étiquetées par un graphe.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp