il y a un mois

Apprentissage continu avec les hyper-réseaux

Johannes von Oswald; Christian Henning; Benjamin F. Grewe; João Sacramento

Résumé

Les réseaux de neurones artificiels souffrent d'un oubli catastrophique lorsqu'ils sont formés séquentiellement sur plusieurs tâches. Pour surmonter ce problème, nous présentons une nouvelle approche basée sur les hyper-réseaux conditionnés par la tâche, c'est-à-dire des réseaux qui génèrent les poids d'un modèle cible en fonction de l'identité de la tâche. L'apprentissage continu (CL) est moins difficile pour cette classe de modèles grâce à une caractéristique clé simple : au lieu de rappeler les relations entrée-sortie de toutes les données précédemment vues, les hyper-réseaux conditionnés par la tâche n'exigent que le réentraînement des réalisations spécifiques aux tâches des poids, qui peuvent être maintenues en mémoire à l'aide d'un régulariseur simple. Outre la réalisation d'une performance de pointe sur des benchmarks standards d'CL, des expériences supplémentaires sur des séquences longues de tâches montrent que les hyper-réseaux conditionnés par la tâche possèdent une capacité très importante à conserver des souvenirs antérieurs. De manière notable, ces durées de vie mémorielle longues sont atteintes dans un régime compressif, lorsque le nombre de poids d'hyper-réseaux entraînables est comparable ou inférieur à la taille du réseau cible. Nous fournissons des éclairages sur la structure des espaces d'embedding à faible dimension (l'espace d'entrée de l'hyper-réseau) et montrons que les hyper-réseaux conditionnés par la tâche démontrent un apprentissage par transfert. Enfin, le transfert informatif vers l'avant est davantage soutenu par des résultats empiriques sur un benchmark CL exigeant basé sur les ensembles de données d'images CIFAR-10/100.