HyperAIHyperAI

Command Palette

Search for a command to run...

Attention conjointe source-cible avec contraintes de localité

José A. R. Fonollosa; Noe Casas; Marta R. Costa-jussà

Résumé

Les modèles de traduction neuronale dominants sont basés sur la structure encodeur-décodeur, et beaucoup d'entre eux s'appuient sur un champ récepteur non contraint sur les séquences source et cible. Dans cet article, nous étudions une nouvelle architecture qui rompt avec ces deux conventions. Notre architecture simplifiée se compose de la partie décodeur d'un modèle transformer, basée sur l'auto-attention, mais avec des contraintes de localité appliquées au champ récepteur de l'attention. Pour l'entraînement, les phrases source et cible sont toutes deux fournies en entrée au réseau, qui est entraîné comme un modèle de langage. Au moment de l'inférence, les jetons cibles sont prédits de manière autoregressive à partir de la séquence source comme jetons précédents. Le modèle proposé atteint un nouveau niveau d'excellence avec un score BLEU de 35,7 sur le corpus IWSLT'14 allemand-anglais et égale les meilleurs résultats rapportés dans la littérature pour les tâches de traduction WMT'14 anglais-allemand et WMT'14 anglais-français.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Attention conjointe source-cible avec contraintes de localité | Articles | HyperAI