Transformers sans larmes : amélioration de la normalisation de l'attention auto-associative

Nous évaluons trois modifications simples centrées sur la normalisation afin d'améliorer l'entraînement des Transformers. Premièrement, nous montrons que les connexions résiduelles en pré-normalisation (PreNorm) ainsi qu'une initialisation plus petite permettent un entraînement sans phase de « warmup », basé sur la validation, avec des taux d'apprentissage élevés. Deuxièmement, nous proposons une normalisation ℓ₂ munie d’un seul paramètre d’échelle (ScaleNorm), qui accélère l’entraînement et améliore les performances. Enfin, nous confirmons à nouveau l’efficacité de la normalisation des embeddings de mots à une longueur fixe (FixNorm). Sur cinq paires de traduction à faible ressource issues de corpus TED Talks, ces modifications garantissent toujours la convergence, offrant une amélioration moyenne de +1,1 BLEU par rapport aux meilleures méthodes actuelles de traduction bilingue, ainsi qu’un nouveau record de 32,8 BLEU sur la tâche IWSLT’15 Anglais-Vietnamien. Nous observons des courbes de performance plus nettes, des normes de gradients plus stables, ainsi qu’une relation linéaire entre l’échelle des activations et la profondeur du décodeur. De manière surprenante, dans un cadre à haute ressource (WMT’14 Anglais-Allemand), ScaleNorm et FixNorm restent compétitifs, tandis que PreNorm entraîne une dégradation des performances.