il y a 11 jours

Synthétiseur : Repenser l'attention auto dans les modèles Transformer

Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng

Résumé

Le produit scalaire d’attention auto-attention est connu pour être central et indispensable aux modèles Transformer de pointe. Mais est-il réellement nécessaire ? Ce papier explore l’importance véritable et la contribution du mécanisme d’attention basé sur le produit scalaire sur les performances des modèles Transformer. À travers des expérimentations étendues, nous constatons que (1) les matrices d’alignement aléatoires se révèlent surprenamment compétitives, et (2) l’apprentissage des poids d’attention à partir des interactions entre tokens (requête-clé) est utile, mais finalement pas aussi crucial qu’on le pensait. À cet effet, nous proposons \textsc{Synthesizer}, un modèle qui apprend des poids d’attention synthétiques sans recourir aux interactions entre tokens. Nos expériences montrent tout d’abord que des Synthesizers simples atteignent des performances très compétitives par rapport aux modèles Transformer classiques sur une variété de tâches, notamment la traduction automatique, la modélisation du langage, la génération de texte ainsi que les benchmarks GLUE/SuperGLUE. Lorsqu’ils sont combinés avec l’attention par produit scalaire, les Synthesizers surpassent de manière cohérente les modèles Transformer. En outre, nous menons des comparaisons supplémentaires entre les Synthesizers et les convolutions dynamiques, montrant qu’un Synthesizer aléatoire simple est non seulement 60 % plus rapide, mais aussi capable d’améliorer la perplexité de 3,5 % en termes relatifs. Enfin, nous démontrons que des Synthesizers factorisés simples peuvent surpasser Linformer sur les tâches d’encodage uniquement.