HyperAIHyperAI

Command Palette

Search for a command to run...

Toutes les mémoires ne sont pas créées égales : apprendre à oublier par expiration

Sainbayar Sukhbaatar Da Ju Spencer Poff Stephen Roller Arthur Szlam Jason Weston Angela Fan

Résumé

Les mécanismes d’attention ont montré des résultats prometteurs dans les tâches de modélisation de séquences nécessitant une mémoire à long terme. Des travaux récents ont exploré des mécanismes visant à réduire le coût computationnel associé à la préservation et au stockage de ces mémoires. Toutefois, tout le contenu passé n’est pas également important à conserver. Nous proposons Expire-Span, une méthode qui apprend à conserver les informations les plus pertinentes tout en faisant expirer celles qui sont inutiles. Ce processus de désapprentissage permet aux Transformers d’atteindre efficacement des séquences de dizaines de milliers d’étapes antérieures, sans avoir à conserver tous les états des étapes passées. Nous démontrons que Expire-Span aide les modèles à identifier et à conserver les informations critiques, et qu’il atteint des performances solides sur des tâches d’apprentissage par renforcement spécifiquement conçues pour tester cette fonctionnalité. Ensuite, nous montrons que Expire-Span peut être étendu à des mémoires comptant des dizaines de milliers d’éléments, établissant ainsi un nouveau record d’état de l’art sur des tâches à contexte extrêmement long, telles que la modélisation linguistique au niveau des caractères et une tâche de suivi d’objets en mouvement par image. Enfin, nous analysons l’efficacité de Expire-Span par rapport aux approches existantes, et démontrons qu’il s’entraîne plus rapidement et consomme moins de mémoire.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp