HyperAIHyperAI
il y a 11 jours

Les Transformers sont des RNN : des Transformers autoregressifs rapides à attention linéaire

Angelos Katharopoulos, Apoorv Vyas, Nikolaos Pappas, François Fleuret
Les Transformers sont des RNN : des Transformers autoregressifs rapides à attention linéaire
Résumé

Les Transformers obtiennent des performances remarquables sur plusieurs tâches, mais en raison de leur complexité quadratique par rapport à la longueur de l’entrée, ils sont prohibitivement lents pour des séquences très longues. Pour surmonter cette limitation, nous exprimons l’attention auto-encadrante comme un produit scalaire linéaire de cartes de fonctions noyaux, et nous exploitons la propriété d’associativité des produits matriciels afin de réduire la complexité de $\mathcal{O}\left(N^2\right)$ à $\mathcal{O}\left(N\right)$, où $N$ représente la longueur de la séquence. Nous montrons que cette formulation permet une implémentation itérative qui accélère considérablement les Transformers autoregressifs et met en évidence leur relation avec les réseaux de neurones récurrents. Nos Transformers linéaires atteignent des performances comparables à celles des Transformers classiques, tout en étant jusqu’à 4000 fois plus rapides pour la prédiction autoregressive de séquences très longues.

Les Transformers sont des RNN : des Transformers autoregressifs rapides à attention linéaire | Articles de recherche récents | HyperAI