il y a 17 jours

Apprentissage par renforcement multi-tâches avec modularisation douce

Ruihan Yang, Huazhe Xu, Yi Wu, Xiaolong Wang

Résumé

L'apprentissage multi-tâches constitue un problème particulièrement difficile en apprentissage par renforcement. Bien que l'entraînement simultané de plusieurs tâches permette aux politiques de partager des paramètres entre différentes tâches, le problème d'optimisation devient non trivial : il reste incertain quels paramètres du réseau doivent être réutilisés d'une tâche à l'autre, et comment les gradients provenant de tâches différentes peuvent interférer entre eux. Ainsi, au lieu de partager naïvement les paramètres entre les tâches, nous introduisons une technique de modularisation explicite sur la représentation de la politique afin de atténuer ce problème d'optimisation. Étant donné un réseau de politique de base, nous concevons un réseau de routage qui estime différentes stratégies de routage afin de reconfigurer le réseau de base pour chaque tâche. Au lieu de sélectionner directement une route pour chaque tâche, notre politique spécifique à la tâche utilise une méthode appelée modularisation douce (soft modularization) pour combiner de manière douce toutes les routes possibles, ce qui la rend particulièrement adaptée aux tâches séquentielles. Nous expérimentons notre méthode sur diverses tâches de manipulation robotique en simulation et montrons qu'elle améliore significativement, par rapport à des baselines performantes, à la fois l'efficacité en échantillons et les performances.