Apprentissage par renforcement hors ligne basé sur un modèle avec croyance dynamique modulée par pessimisme

L'apprentissage par renforcement hors ligne basé sur un modèle (model-based offline reinforcement learning, RL) vise à découvrir une politique fortement récompensée en exploitant un ensemble de données statiques préalablement collectées et un modèle de dynamique. Bien que le modèle de dynamique soit appris en réutilisant cet ensemble de données statiques, sa capacité de généralisation pourrait favoriser l'apprentissage de la politique si elle est correctement exploitée. À cet effet, plusieurs travaux proposent de quantifier l'incertitude des prédictions de dynamique et de l'appliquer explicitement comme pénalité sur la récompense. Toutefois, puisque la dynamique et la récompense sont des facteurs fondamentalement distincts dans le cadre des processus de décision markoviens (MDP), modéliser l'impact de l'incertitude de la dynamique via une pénalité sur la récompense peut entraîner un compromis inattendu entre l'utilisation du modèle et la gestion du risque. Dans ce travail, nous proposons au contraire de maintenir une distribution de croyance sur la dynamique, et d'évaluer/optimiser la politique via un échantillonnage biaisé à partir de cette croyance. La procédure d'échantillonnage, biaisée en faveur du pessimisme, est dérivée d'une formulation basée sur un jeu markovien alterné pour l'apprentissage par renforcement hors ligne. Nous montrons formellement que cet échantillonnage biaisé induit naturellement une mise à jour de la croyance sur la dynamique, incluant un facteur de rééchantillonnage dépendant de la politique, que nous appelons Pessimism-Modulated Dynamics Belief (PMBD). Pour améliorer la politique, nous avons conçu un algorithme itératif d'optimisation régularisée de la politique pour ce jeu, garantissant une amélioration monotone sous certaines conditions. Pour assurer sa faisabilité pratique, nous avons également développé un algorithme d'apprentissage par renforcement hors ligne permettant de trouver approximativement la solution. Les résultats expérimentaux montrent que l'approche proposée atteint des performances de pointe sur une large gamme de tâches standards.