Généralisation procédurale par planification à l’aide de modèles mondiaux auto-supervisés

L’une des promesses clés de l’apprentissage par renforcement basé sur des modèles réside dans la capacité à généraliser en utilisant un modèle interne du monde pour effectuer des prédictions dans des environnements et des tâches nouveaux. Toutefois, la capacité de généralisation des agents basés sur des modèles n’est pas encore bien comprise, car les travaux existants se sont concentrés sur les agents sans modèle lors des évaluations de généralisation. Dans cet article, nous mesurons explicitement la capacité de généralisation des agents basés sur des modèles, en les comparant à leurs homologues sans modèle. Nous nous concentrons sur MuZero (Schrittwieser et al., 2020), un agent basé sur des modèles puissant, et évaluons ses performances en matière de généralisation procédurale et de généralisation de tâches. Nous identifions trois facteurs clés de la généralisation procédurale — la planification, l’apprentissage auto-supervisé de représentations et la diversité des données procédurales — et montrons qu’en combinant ces techniques, nous atteignons des performances de généralisation et d’efficacité en données au niveau de l’état de l’art sur Procgen (Cobbe et al., 2019). Toutefois, nous constatons que ces facteurs n’offrent pas toujours les mêmes avantages dans les benchmarks de généralisation de tâches sur Meta-World (Yu et al., 2019), ce qui indique que le transfert reste un défi et pourrait nécessiter des approches différentes de celles utilisées pour la généralisation procédurale. Globalement, nous suggérons qu’il est nécessaire de dépasser le paradigme unique, sans modèle, pour passer vers des agents généralisables auto-supervisés basés sur des modèles, entraînés dans des environnements riches, procéduraux et multi-tâches.