HyperAIHyperAI

Command Palette

Search for a command to run...

Transformers sans larmes : amélioration de la normalisation de l'attention auto-associative

Toan Q. Nguyen Julian Salazar

Résumé

Nous évaluons trois modifications simples centrées sur la normalisation afin d'améliorer l'entraînement des Transformers. Premièrement, nous montrons que les connexions résiduelles en pré-normalisation (PreNorm) ainsi qu'une initialisation plus petite permettent un entraînement sans phase de « warmup », basé sur la validation, avec des taux d'apprentissage élevés. Deuxièmement, nous proposons une normalisation ℓ₂ munie d’un seul paramètre d’échelle (ScaleNorm), qui accélère l’entraînement et améliore les performances. Enfin, nous confirmons à nouveau l’efficacité de la normalisation des embeddings de mots à une longueur fixe (FixNorm). Sur cinq paires de traduction à faible ressource issues de corpus TED Talks, ces modifications garantissent toujours la convergence, offrant une amélioration moyenne de +1,1 BLEU par rapport aux meilleures méthodes actuelles de traduction bilingue, ainsi qu’un nouveau record de 32,8 BLEU sur la tâche IWSLT’15 Anglais-Vietnamien. Nous observons des courbes de performance plus nettes, des normes de gradients plus stables, ainsi qu’une relation linéaire entre l’échelle des activations et la profondeur du décodeur. De manière surprenante, dans un cadre à haute ressource (WMT’14 Anglais-Allemand), ScaleNorm et FixNorm restent compétitifs, tandis que PreNorm entraîne une dégradation des performances.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Transformers sans larmes : amélioration de la normalisation de l'attention auto-associative | Articles | HyperAI