HyperAIHyperAI

Command Palette

Search for a command to run...

Mega : Attention à portes équipée de moyenne mobile

Xuezhe Ma Chunting Zhou Xiang Kong Junxian He Liangke Gui Graham Neubig Jonathan May Luke Zettlemoyer

Résumé

Les choix architecturaux du mécanisme d’attention Transformer, notamment un biais inductif faible et une complexité computationnelle quadratique, ont limité son application à la modélisation de séquences longues. Dans cet article, nous introduisons Mega, un mécanisme d’attention à simple tête, simple et fondé sur une base théorique, doté d’une moyenne mobile (exponentielle) afin d’introduire un biais inductif captant les dépendances locales sensibles à la position dans un mécanisme d’attention indépendant de la position. Nous proposons par ailleurs une variante de Mega offrant une complexité temporelle et spatiale linéaire, tout en entraînant une perte de qualité négligeable, en divisant efficacement la séquence entière en plusieurs segments de longueur fixe. Des expériences étendues sur une large gamme de benchmarks de modélisation de séquences — incluant le Long Range Arena, la traduction automatique, la modélisation linguistique auto-régressive, ainsi que la classification d’images et de paroles — montrent que Mega atteint des améliorations significatives par rapport à d’autres modèles de séquences, y compris des variantes de Transformers et des modèles récents à espace d’état.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Mega : Attention à portes équipée de moyenne mobile | Articles | HyperAI