HyperAIHyperAI

Command Palette

Search for a command to run...

Synthétiseur : Repenser l'attention auto dans les modèles Transformer

Yi Tay Dara Bahri Donald Metzler Da-Cheng Juan Zhe Zhao Che Zheng

Résumé

Le produit scalaire d’attention auto-attention est connu pour être central et indispensable aux modèles Transformer de pointe. Mais est-il réellement nécessaire ? Ce papier explore l’importance véritable et la contribution du mécanisme d’attention basé sur le produit scalaire sur les performances des modèles Transformer. À travers des expérimentations étendues, nous constatons que (1) les matrices d’alignement aléatoires se révèlent surprenamment compétitives, et (2) l’apprentissage des poids d’attention à partir des interactions entre tokens (requête-clé) est utile, mais finalement pas aussi crucial qu’on le pensait. À cet effet, nous proposons \textsc{Synthesizer}, un modèle qui apprend des poids d’attention synthétiques sans recourir aux interactions entre tokens. Nos expériences montrent tout d’abord que des Synthesizers simples atteignent des performances très compétitives par rapport aux modèles Transformer classiques sur une variété de tâches, notamment la traduction automatique, la modélisation du langage, la génération de texte ainsi que les benchmarks GLUE/SuperGLUE. Lorsqu’ils sont combinés avec l’attention par produit scalaire, les Synthesizers surpassent de manière cohérente les modèles Transformer. En outre, nous menons des comparaisons supplémentaires entre les Synthesizers et les convolutions dynamiques, montrant qu’un Synthesizer aléatoire simple est non seulement 60 % plus rapide, mais aussi capable d’améliorer la perplexité de 3,5 % en termes relatifs. Enfin, nous démontrons que des Synthesizers factorisés simples peuvent surpasser Linformer sur les tâches d’encodage uniquement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp