Apprentissage continu basé sur l'incertitude avec régularisation adaptative

Nous présentons un nouvel algorithme d'apprentissage continu basé sur les réseaux de neurones, dénommé Apprentissage Continu Régularisé par l'Incertain (ACRI), qui s'appuie sur le cadre traditionnel d'apprentissage en ligne bayésien avec inférence variationnelle. Nous nous concentrons sur deux inconvénients majeurs des méthodes de régularisation récemment proposées : a) un coût mémoire supplémentaire considérable pour déterminer les forces de régularisation par poids et b) l'absence d'un schéma de oubli gracieux, qui peut prévenir la dégradation des performances lors de l'apprentissage de nouvelles tâches. Dans cet article, nous montrons que l'ACRI peut résoudre ces deux problèmes en introduisant une nouvelle interprétation du terme de divergence Kullback-Leibler (KL) de la borne inférieure variationnelle pour l'approximation champ-moyen gaussienne. Sur la base de cette interprétation, nous proposons le concept d'incertitude nœud-par-nœud, qui réduit drastiquement le nombre de paramètres supplémentaires nécessaires pour mettre en œuvre la régularisation par poids. De plus, nous élaborons deux termes de régularisation supplémentaires qui assurent la stabilité en gelant les paramètres importants pour les tâches passées et permettent la plasticité en contrôlant les paramètres actuellement appris pour une nouvelle tâche. À travers des expériences approfondies, nous montrons que l'ACRI dépasse convaincement la plupart des baselines récentes et avancées non seulement sur des benchmarks populaires d'apprentissage supervisé, mais aussi sur des tâches complexes d'apprentissage par renforcement tout au long de la vie. Le code source de notre algorithme est disponible à l'adresse https://github.com/csm9493/UCL.