HyperAIHyperAI
il y a 11 jours

Flowformer : Linéarisation des Transformers par flux de conservation

Haixu Wu, Jialong Wu, Jiehui Xu, Jianmin Wang, Mingsheng Long
Flowformer : Linéarisation des Transformers par flux de conservation
Résumé

Les Transformers fondés sur le mécanisme d’attention ont remporté des succès remarquables dans de nombreux domaines. Toutefois, le mécanisme d’attention présente une complexité quadratique, ce qui freine considérablement l’application des Transformers à de grandes quantités de tokens et leur extension à des modèles plus volumineux. Les approches antérieures se sont principalement appuyées sur la décomposition de similarité et l’associativité de la multiplication matricielle pour concevoir des mécanismes d’attention à complexité linéaire. Toutefois, pour éviter que l’attention ne dégénère en une distribution triviale, elles réintroduisent des biais inductifs spécifiques, tels que la localité, au prix de la généralité et de l’expressivité du modèle. Dans ce travail, nous linéarisons les Transformers sans recourir à des biais inductifs spécifiques, en nous fondant sur la théorie des réseaux de flux. Nous modélisons l’attention comme un flux d’information aggregé provenant des sources (valeurs) vers les puits (résultats) via des capacités de flux apprises (les attentions). Dans ce cadre, nous exploitons la propriété de conservation du flux dans l’attention et proposons un mécanisme appelé Flow-Attention, dont la complexité est linéaire. En conservant séparément le flux entrant aux puits (pour la compétition entre sources) et le flux sortant des sources (pour l’affectation aux puits), Flow-Attention génère naturellement des attentions informatives sans recourir à des biais inductifs spécifiques. Grâce à Flow-Attention, Flowformer atteint des performances solides en temps linéaire sur une large gamme d’applications, notamment les séquences longues, les séries temporelles, la vision, le traitement du langage naturel et l’apprentissage par renforcement. Le code et les configurations sont disponibles à l’adresse suivante : https://github.com/thuml/Flowformer.

Flowformer : Linéarisation des Transformers par flux de conservation | Articles de recherche récents | HyperAI