HyperAIHyperAI
il y a 17 jours

Mega : Attention à portes équipée de moyenne mobile

Xuezhe Ma, Chunting Zhou, Xiang Kong, Junxian He, Liangke Gui, Graham Neubig, Jonathan May, Luke Zettlemoyer
Mega : Attention à portes équipée de moyenne mobile
Résumé

Les choix architecturaux du mécanisme d’attention Transformer, notamment un biais inductif faible et une complexité computationnelle quadratique, ont limité son application à la modélisation de séquences longues. Dans cet article, nous introduisons Mega, un mécanisme d’attention à simple tête, simple et fondé sur une base théorique, doté d’une moyenne mobile (exponentielle) afin d’introduire un biais inductif captant les dépendances locales sensibles à la position dans un mécanisme d’attention indépendant de la position. Nous proposons par ailleurs une variante de Mega offrant une complexité temporelle et spatiale linéaire, tout en entraînant une perte de qualité négligeable, en divisant efficacement la séquence entière en plusieurs segments de longueur fixe. Des expériences étendues sur une large gamme de benchmarks de modélisation de séquences — incluant le Long Range Arena, la traduction automatique, la modélisation linguistique auto-régressive, ainsi que la classification d’images et de paroles — montrent que Mega atteint des améliorations significatives par rapport à d’autres modèles de séquences, y compris des variantes de Transformers et des modèles récents à espace d’état.

Mega : Attention à portes équipée de moyenne mobile | Articles de recherche récents | HyperAI