Attention par Fonction Aléatoire

Les Transformers sont des modèles de pointe pour diverses tâches de modélisation de séquences. Au cœur de ces modèles se trouve une fonction d’attention qui modélise les interactions par paires entre les entrées à chaque pas de temps. Bien que l’attention soit puissante, elle ne se généralise pas efficacement aux séquences longues en raison de sa complexité quadratique en temps et en espace par rapport à la longueur de la séquence. Nous proposons RFA, une attention à complexité linéaire en temps et en espace, qui utilise des méthodes de fonctions aléatoires pour approximer la fonction softmax, et explorons son application dans les Transformers. RFA peut être utilisée comme remplacement direct de l’attention softmax classique, tout en offrant un moyen simple d’apprendre avec un biais de récence grâce à un mécanisme de porte optionnel. Des expériences sur la modélisation du langage et la traduction automatique montrent que RFA atteint des performances similaires ou supérieures à celles des baselines Transformers fortes. Dans l’expérience de traduction automatique, RFA décode deux fois plus vite qu’un Transformer classique. Par rapport aux variantes efficaces existantes des Transformers, RFA se distingue par une performance compétitive à la fois en précision et en efficacité sur trois jeux de données de classification de textes longs. Notre analyse indique que les gains d’efficacité de RFA sont particulièrement marqués sur les séquences longues, ce qui suggère que RFA sera particulièrement utile dans les tâches nécessitant des entrées de grande taille, une vitesse de décodage rapide ou une empreinte mémoire réduite.