HyperAIHyperAI
il y a 9 jours

CODE-CL : Projection de gradient basée sur les Conceptor pour l'apprentissage continu profond

Marco Paul E. Apolinario, Sakshi Choudhary, Kaushik Roy
CODE-CL : Projection de gradient basée sur les Conceptor pour l'apprentissage continu profond
Résumé

L’apprentissage continu (CL), c’est-à-dire la capacité à acquérir progressivement et à intégrer de nouveaux concepts, est essentiel aux systèmes intelligents afin de s’adapter à des environnements dynamiques. Toutefois, les réseaux de neurones profonds peinent face au oubli catastrophique (CF) lorsqu’ils apprennent des tâches de manière séquentielle, car l’entraînement sur de nouvelles tâches risque souvent de supprimer les connaissances précédemment acquises. Pour pallier ce problème, les approches récentes restreignent les mises à jour à des sous-espaces orthogonaux en utilisant une projection de gradients, préservant efficacement les directions de gradient importantes pour les tâches antérieures. Bien que ces méthodes soient efficaces pour réduire le oubli, elles entravent involontairement le transfert de connaissances vers l’avant (FWT), en particulier lorsque les tâches sont fortement corrélées. Dans ce travail, nous proposons CODE-CL (Conceptor-based gradient projection for Deep Continual Learning), une méthode originale qui exploite les représentations matricielles de concepteurs, une forme de reconstruction régularisée, afin de gérer de manière adaptative des tâches fortement corrélées. CODE-CL atténue le CF en projetant les gradients sur des sous-espaces pseudo-orthogonaux des espaces de caractéristiques des tâches précédentes, tout en favorisant simultanément le FWT. Cette approche repose sur l’apprentissage d’une combinaison linéaire de directions de base partagées, permettant un équilibre efficace entre stabilité et plasticité, ainsi qu’un transfert optimal des connaissances entre les représentations d’entrée chevauchantes. Des expériences étendues sur des benchmarks d’apprentissage continu valident l’efficacité de CODE-CL, démontrant des performances supérieures, une réduction du oubli et un amélioration du FWT par rapport aux méthodes de pointe.