HyperAIHyperAI
il y a 11 jours

Réfléchir à l'attention avec Performers

Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Davis, Afroz Mohiuddin, Lukasz Kaiser, David Belanger, Lucy Colwell, Adrian Weller
Réfléchir à l'attention avec Performers
Résumé

Nous présentons Performers, une architecture de Transformers capables d’estimer les Transformers à attention pleine-rang (softmax) avec une précision prouvée, tout en utilisant uniquement une complexité spatiale et temporelle linéaire (au lieu de quadratique), sans faire appel à des hypothèses a priori telles que la parcimonie ou la basse-rang. Pour approcher les noyaux d’attention softmax, Performers exploitent une nouvelle méthode, Fast Attention Via positive Orthogonal Random features (FAVOR+), qui pourrait s’avérer d’un intérêt indépendant pour les méthodes noyaux évolutives. FAVOR+ peut également être employée de manière efficace pour modéliser des mécanismes d’attention noyau-convertibles au-delà du softmax. Ce pouvoir représentationnel est crucial pour comparer, pour la première fois à grande échelle — au-delà des capacités des Transformers classiques — le softmax avec d’autres noyaux, et pour investiguer les noyaux d’attention optimaux. Performers sont des architectures linéaires entièrement compatibles avec les Transformers classiques, et bénéficient de garanties théoriques solides : estimation non biaisée ou presque non biaisée de la matrice d’attention, convergence uniforme et faible variance d’estimation. Nous avons testé Performers sur une large gamme de tâches, allant de la prédiction de pixels aux modèles textuels jusqu’à la modélisation de séquences protéiques. Nos résultats montrent une performance compétitive par rapport à d’autres méthodes efficaces d’attention creuse ou dense, mettant ainsi en évidence l’efficacité du nouveau paradigme d’apprentissage de l’attention mis en œuvre par Performers.

Réfléchir à l'attention avec Performers | Articles de recherche récents | HyperAI