L'attention comme un RNN

L’arrivée des Transformers a marqué une avancée majeure dans le modélisation de séquences, offrant une architecture hautement performante capable d’exploiter efficacement la parallélisation sur GPU. Toutefois, les Transformers sont coûteux en termes de calcul lors de l’inférence, ce qui limite leur application, notamment dans les environnements à ressources limitées (par exemple, les dispositifs mobiles et embarqués). À cet égard, nous montrons d’abord (1) que l’attention peut être considérée comme un cas particulier de réseau de neurones récurrents (RNN) capable de calculer efficacement sa sortie many-to-one. Ensuite, nous démontrons (2) que des modèles d’attention populaires, tels que les Transformers, peuvent être vus comme des variantes de RNN. Toutefois, contrairement aux RNN classiques (par exemple, les LSTM), ces modèles ne peuvent pas être mis à jour efficacement lors de l’arrivée de nouveaux tokens, une propriété essentielle dans la modélisation de séquences. Pour résoudre ce problème, nous proposons (3) une nouvelle méthode efficace pour calculer la sortie many-to-many de l’attention, fondée sur l’algorithme de balayage préfixe parallèle. En s’appuyant sur cette nouvelle formulation de l’attention, nous introduisons (4) Aaren, un module basé sur l’attention qui peut non seulement (i) être entraîné en parallèle (comme les Transformers), mais aussi (ii) être mis à jour efficacement avec de nouveaux tokens, tout en nécessitant uniquement une mémoire constante pendant l’inférence (comme les RNN traditionnels). Expérimentalement, nous montrons que Aaren atteignent des performances comparables aux Transformers sur 38 jeux de données répartis dans quatre domaines courants de modélisation séquentielle : apprentissage par renforcement, prévision d’événements, classification de séries temporelles et prévision de séries temporelles, tout en étant plus efficaces en temps et en mémoire.