HyperAIHyperAI
il y a 13 jours

Nyströmformer : un algorithme basé sur Nyström pour l'approximation de l'attention auto-associative

Yunyang Xiong, Zhanpeng Zeng, Rudrasis Chakraborty, Mingxing Tan, Glenn Fung, Yin Li, Vikas Singh
Nyströmformer : un algorithme basé sur Nyström pour l'approximation de l'attention auto-associative
Résumé

Les Transformers se sont imposés comme un outil puissant pour une large gamme de tâches de traitement du langage naturel. Un composant clé qui explique les performances remarquables des Transformers est le mécanisme d’attention auto-attentionnelle, qui encode l’influence ou la dépendance des autres tokens sur chaque token spécifique. Bien que bénéfique, la complexité quadratique de l’attention auto-attentionnelle par rapport à la longueur de la séquence d’entrée limite son application aux séquences plus longues — un sujet actuellement très étudié dans la communauté. Pour surmonter cette limitation, nous proposons Nyströmformer, un modèle dont la scalabilité s’avère favorable en fonction de la longueur de la séquence. Notre approche repose sur l’adaptation de la méthode de Nyström afin d’approximer l’attention auto-attentionnelle standard avec une complexité en $O(n)$. La scalabilité de Nyströmformer permet ainsi son application à des séquences plus longues comportant des milliers de tokens. Nous avons mené des évaluations sur plusieurs tâches descendantes du benchmark GLUE et des critiques IMDB, avec des longueurs de séquence standards, et constaté que Nyströmformer atteint des performances comparables, voire légèrement supérieures dans certains cas, à celles de l’attention auto-attentionnelle standard. Sur les tâches à longue portée du benchmark Long Range Arena (LRA), Nyströmformer se distingue favorablement par rapport à d’autres méthodes d’attention auto-attentionnelle efficaces. Le code est disponible à l’adresse suivante : https://github.com/mlpen/Nystromformer.