il y a 9 jours

Toutes les mémoires ne sont pas créées égales : apprendre à oublier par expiration

Sainbayar Sukhbaatar, Da Ju, Spencer Poff, Stephen Roller, Arthur Szlam, Jason Weston, Angela Fan

Résumé

Les mécanismes d’attention ont montré des résultats prometteurs dans les tâches de modélisation de séquences nécessitant une mémoire à long terme. Des travaux récents ont exploré des mécanismes visant à réduire le coût computationnel associé à la préservation et au stockage de ces mémoires. Toutefois, tout le contenu passé n’est pas également important à conserver. Nous proposons Expire-Span, une méthode qui apprend à conserver les informations les plus pertinentes tout en faisant expirer celles qui sont inutiles. Ce processus de désapprentissage permet aux Transformers d’atteindre efficacement des séquences de dizaines de milliers d’étapes antérieures, sans avoir à conserver tous les états des étapes passées. Nous démontrons que Expire-Span aide les modèles à identifier et à conserver les informations critiques, et qu’il atteint des performances solides sur des tâches d’apprentissage par renforcement spécifiquement conçues pour tester cette fonctionnalité. Ensuite, nous montrons que Expire-Span peut être étendu à des mémoires comptant des dizaines de milliers d’éléments, établissant ainsi un nouveau record d’état de l’art sur des tâches à contexte extrêmement long, telles que la modélisation linguistique au niveau des caractères et une tâche de suivi d’objets en mouvement par image. Enfin, nous analysons l’efficacité de Expire-Span par rapport aux approches existantes, et démontrons qu’il s’entraîne plus rapidement et consomme moins de mémoire.