HyperAIHyperAI

Command Palette

Search for a command to run...

Tout est lié : un voyage à travers la mémoire au moment du test, le biais attentionnel, la rétention et l'optimisation en ligne

Ali Behrouz Meisam Razaviyayn Peilin Zhong Vahab Mirrokni

Résumé

La conception d'architectures fondamentales efficaces et performantes constitue un axe central des recherches visant à améliorer les capacités des modèles fondamentaux. Inspirés par le phénomène cognitif humain de biais attentionnel — la tendance naturelle à privilégier certains événements ou stimuli —, nous repensons les architectures neuronales, y compris les Transformers, les Titans et les réseaux de neurones récurrents linéaires modernes, comme des modules de mémoire associative apprenant une application entre clés et valeurs à l’aide d’un objectif interne, désigné sous le nom de biais attentionnel. De manière surprenante, nous observons que la plupart des modèles de séquences existants exploitent soit (1) une similarité par produit scalaire, soit (2) une objectif de régression L2 comme biais attentionnel. En allant au-delà de ces objectifs, nous proposons une série de configurations alternatives de biais attentionnel, accompagnées de leurs approximations efficaces, afin de stabiliser le processus d’entraînement. Nous réinterprétons ensuite les mécanismes d’oubli présents dans les architectures modernes d’apprentissage profond comme une forme de régularisation de rétention, offrant ainsi un nouvel ensemble de portes d’oubli pour les modèles de séquences. Partant de ces constatations, nous introduisons Miras, un cadre général permettant de concevoir des architectures d’apprentissage profond à partir de quatre choix : (i) l’architecture de mémoire associative, (ii) l’objectif de biais attentionnel, (iii) la porte de rétention, et (iv) l’algorithme d’apprentissage de mémoire. Nous présentons trois nouveaux modèles de séquences — Moneta, Yaad et Memora — qui dépassent les capacités des RNN linéaires existants tout en conservant un processus d’entraînement rapide et parallélisable. Nos expérimentations montrent que les différentes options de conception dans Miras donnent lieu à des modèles aux performances variées. Par exemple, certaines instances de Miras atteignent des performances exceptionnelles sur des tâches spécifiques telles que la modélisation linguistique, le raisonnement courant ou les tâches intensives en rappel, surpassant même les Transformers et d’autres modèles récurrents linéaires modernes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp