HyperAIHyperAI
il y a 9 jours

Prêtez attention lorsque cela est nécessaire

Swetha Mandava, Szymon Migacz, Alex Fit Florea
Prêtez attention lorsque cela est nécessaire
Résumé

Les modèles basés sur Transformer sont composés de blocs feed-forward entrelacés — qui captent le sens du contenu — et de blocs d’attention auto-associative relativement plus coûteux — qui captent le sens du contexte. Dans ce papier, nous avons exploré les compromis et l’ordre de ces blocs afin d’améliorer l’architecture Transformer actuelle, et avons proposé le modèle PAR Transformer. Ce dernier nécessite 35 % de temps de calcul en moins que Transformer-XL, en remplaçant environ 63 % des blocs d’attention auto-associative par des blocs feed-forward, tout en maintenant le même niveau de perplexité sur le benchmark de modélisation linguistique WikiText-103. Nous avons également validé nos résultats sur les jeux de données text8 et enwiki8, ainsi que sur le modèle BERT.

Prêtez attention lorsque cela est nécessaire | Articles de recherche récents | HyperAI