Planification dans des environnements stochastiques avec un modèle appris

L’apprentissage par renforcement basé sur un modèle s’est avéré extrêmement efficace. Toutefois, l’apprentissage d’un modèle de manière isolée par rapport à son utilisation pendant la planification s’avère problématique dans des environnements complexes. À ce jour, les techniques les plus efficaces ont plutôt combiné l’apprentissage de modèles équivalents en valeur avec des méthodes puissantes de recherche arborescente. Cette approche est exemplifiée par MuZero, qui a atteint des performances de pointe dans une large gamme de domaines, allant des jeux de stratégie à des environnements visuellement riches, avec des espaces d’actions discrets ou continus, dans des contextes en ligne comme hors ligne. Toutefois, les implémentations antérieures de cette approche étaient limitées à l’utilisation de modèles déterministes, ce qui restreint leurs performances dans des environnements intrinsèquement stochastiques, partiellement observables, ou si vastes et complexes qu’ils apparaissent stochastiques à un agent fini. Dans cet article, nous étendons cette approche pour apprendre et planifier avec des modèles stochastiques. Plus précisément, nous introduisons un nouvel algorithme, Stochastic MuZero, qui apprend un modèle stochastique intégrant les états postérieurs (afterstates) et l’utilise pour effectuer une recherche arborescente stochastique. Stochastic MuZero atteint ou dépasse les performances de l’état de l’art sur un ensemble d’environnements canoniques, tant monopersonnels que multiagents, incluant 2048 et le backgammon, tout en maintenant les mêmes performances que MuZero standard dans le jeu de Go.