Command Palette
Search for a command to run...
Tout est lié : un voyage à travers la mémoire au moment du test, le biais attentionnel, la rétention et l'optimisation en ligne
Tout est lié : un voyage à travers la mémoire au moment du test, le biais attentionnel, la rétention et l'optimisation en ligne
Ali Behrouz Meisam Razaviyayn Peilin Zhong Vahab Mirrokni
Résumé
La conception d'architectures fondamentales efficaces et performantes constitue un axe central des recherches visant à améliorer les capacités des modèles fondamentaux. Inspirés par le phénomène cognitif humain de biais attentionnel — la tendance naturelle à privilégier certains événements ou stimuli —, nous repensons les architectures neuronales, y compris les Transformers, les Titans et les réseaux de neurones récurrents linéaires modernes, comme des modules de mémoire associative apprenant une application entre clés et valeurs à l’aide d’un objectif interne, désigné sous le nom de biais attentionnel. De manière surprenante, nous observons que la plupart des modèles de séquences existants exploitent soit (1) une similarité par produit scalaire, soit (2) une objectif de régression L2 comme biais attentionnel. En allant au-delà de ces objectifs, nous proposons une série de configurations alternatives de biais attentionnel, accompagnées de leurs approximations efficaces, afin de stabiliser le processus d’entraînement. Nous réinterprétons ensuite les mécanismes d’oubli présents dans les architectures modernes d’apprentissage profond comme une forme de régularisation de rétention, offrant ainsi un nouvel ensemble de portes d’oubli pour les modèles de séquences. Partant de ces constatations, nous introduisons Miras, un cadre général permettant de concevoir des architectures d’apprentissage profond à partir de quatre choix : (i) l’architecture de mémoire associative, (ii) l’objectif de biais attentionnel, (iii) la porte de rétention, et (iv) l’algorithme d’apprentissage de mémoire. Nous présentons trois nouveaux modèles de séquences — Moneta, Yaad et Memora — qui dépassent les capacités des RNN linéaires existants tout en conservant un processus d’entraînement rapide et parallélisable. Nos expérimentations montrent que les différentes options de conception dans Miras donnent lieu à des modèles aux performances variées. Par exemple, certaines instances de Miras atteignent des performances exceptionnelles sur des tâches spécifiques telles que la modélisation linguistique, le raisonnement courant ou les tâches intensives en rappel, surpassant même les Transformers et d’autres modèles récurrents linéaires modernes.