HyperAIHyperAI
il y a 9 jours

TAG : Gradients accumulés par tâche pour l'apprentissage continu

Pranshu Malviya, Balaraman Ravindran, Sarath Chandar
TAG : Gradients accumulés par tâche pour l'apprentissage continu
Résumé

Lorsqu’un agent est confronté à un flux continu de nouvelles tâches dans un cadre d’apprentissage à vie, il exploite les connaissances acquises lors des tâches précédentes afin d’apprendre plus efficacement les nouvelles tâches. Dans un tel contexte, la détermination d’une représentation efficace des connaissances devient un problème difficile. La plupart des travaux existants proposent soit de stocker un sous-ensemble d’exemples issus des tâches passées dans un tampon de répétition (replay buffer), soit de dédier un ensemble séparé de paramètres à chaque tâche, soit de pénaliser les mises à jour excessives des paramètres en introduisant un terme de régularisation. Bien que les méthodes actuelles reposent sur la règle générale d’actualisation stochastique du gradient sans tenir compte des tâches (task-agnostic), nous proposons un optimiseur sensible aux tâches, qui ajuste dynamiquement le taux d’apprentissage en fonction de la similarité entre les tâches. Nous exploitons les directions prises par les paramètres au cours des mises à jour en accumulant les gradients spécifiques à chaque tâche. Ces gradients accumulés, fondés sur les tâches, agissent comme une base de connaissances maintenue et mise à jour tout au long du flux. Nous démontrons empiriquement que notre taux d’apprentissage adaptatif permet non seulement de réduire le phénomène d’oubli catastrophique, mais aussi d’obtenir un transfert arrière positif. Nous montrons également que notre méthode surpasse plusieurs méthodes de pointe dans l’apprentissage à vie sur des jeux de données complexes comportant un grand nombre de tâches.

TAG : Gradients accumulés par tâche pour l'apprentissage continu | Articles de recherche récents | HyperAI