Command Palette
Search for a command to run...
L'attention à fenêtre courte permet la mémoire à long terme
L'attention à fenêtre courte permet la mémoire à long terme
Loïc Cabannes Maximilian Beck Gergely Szilvasy Matthijs Douze Maria Lomeli Jade Copet Pierre-Emmanuel Mazaré Gabriel Synnaeve Hervé Jégou
Abstract
Des travaux récents montrent que les architectures hybrides combinant des couches d’attention softmax à fenêtre glissante et des couches de réseaux de neurones récurrents (RNN) linéaires surpassent chacune de ces architectures prises séparément. Toutefois, l’impact de la longueur de la fenêtre ainsi que l’interaction entre les couches d’attention softmax et les RNN linéaires restent peu étudiés. Dans ce travail, nous introduisons SWAX, une architecture hybride composée de couches d’attention à fenêtre glissante et de couches RNN linéaires xLSTM.Une découverte contre-intuitive avec SWAX est que des fenêtres glissantes plus grandes n’améliorent pas les performances sur les contextes longs. En réalité, une attention à fenêtre courte encourage le modèle à mieux entraîner la mémoire à long terme de l’xLSTM, en réduisant sa dépendance à l’égard du mécanisme d’attention softmax pour la récupération de contextes longs.Le principal inconvénient des petites fenêtres glissantes réside dans leur impact négatif sur les tâches à contexte court, qui pourraient être améliorées grâce à l’information provenant de fenêtres glissantes de taille modérément plus grande. Pour résoudre ce problème, nous entraînons SWAX en modifiant de manière stochastique la taille de la fenêtre glissante, forçant ainsi le modèle à tirer parti à la fois d’une fenêtre contextuelle plus étendue et de la mémoire de l’xLSTM. L’architecture SWAX entraînée avec des tailles de fenêtre stochastiques surpasse significativement l’attention à fenêtre fixe, tant sur les problèmes à court que sur ceux à long contexte.