RealFormer : Transformer aime l'attention résiduelle

Transformer constitue la pierre angulaire des modèles modernes de traitement du langage naturel (NLP). Dans cet article, nous proposons RealFormer, une technique simple et générique permettant de concevoir des réseaux Transformer à couches d’attention résiduelles, qui surpassent de manière significative le Transformer canonique et ses variantes (telles que BERT, etc.) sur une large gamme de tâches, notamment le modélisation de langage masqué, GLUE, SQuAD, la traduction automatique neurale, WikiHop, HotpotQA, Natural Questions et OpenKP. Nous observons également empiriquement que RealFormer stabilise l’entraînement et donne lieu à des modèles présentant une attention plus éparse. Le code source et les points de contrôle pré-entraînés pour RealFormer sont disponibles à l’adresse suivante : https://github.com/google-research/google-research/tree/master/realformer.