Unification de l'exploration basée sur les comptages et de la motivation intrinsèque

Nous abordons l'incertitude d'un agent concernant son environnement et le problème de la généralisation de cette incertitude à travers les observations. Plus précisément, nous nous concentrons sur le problème d'exploration dans le cadre de l'apprentissage par renforcement non tabulaire. En nous inspirant des travaux sur la motivation intrinsèque, nous utilisons des modèles de densité pour mesurer l'incertitude et proposons un nouvel algorithme permettant d'extraire un pseudo-comptage à partir d'un modèle de densité quelconque. Cette technique nous permet de généraliser les algorithmes d'exploration basés sur le comptage au cas non tabulaire. Nous appliquons nos idées aux jeux Atari 2600, en fournissant des pseudo-comptages pertinents à partir de pixels bruts. Nous transformons ces pseudo-comptages en récompenses intrinsèques et obtenons une exploration significativement améliorée dans plusieurs jeux difficiles, notamment le célèbre Montezuma's Revenge (Montezuma’s Revenge).