Exploration Basée sur les Comptes dans l'Espace des Caractéristiques pour l'Apprentissage par Renforcement

Nous présentons un nouvel algorithme d'exploration optimiste basé sur le comptage pour l'Apprentissage par Renforcement (AR) qui est applicable dans des environnements à espaces d'états-actions de grande dimension. Le succès des algorithmes d'AR dans ces domaines dépend crucialement de la généralisation à partir d'une expérience de formation limitée. Les techniques d'approximation de fonction permettent aux agents AR de généraliser afin d'estimer la valeur des états non visités, mais actuellement peu de méthodes permettent une généralisation concernant l'incertitude. Cela a empêché la combinaison d'algorithmes d'AR évolutifs avec des stratégies d'exploration efficaces qui incitent l'agent à réduire son incertitude. Nous proposons une nouvelle méthode pour calculer un comptage généralisé des visites d'état, ce qui permet à l'agent d'estimer l'incertitude associée à tout état. Notre ϕ-pseudo-comptage atteint la généralisation en exploitant la même représentation de caractéristiques de l'espace d'états utilisée pour l'approximation de la fonction de valeur. Les états ayant des caractéristiques moins fréquemment observées sont considérés comme plus incertains. L'algorithme ϕ-Exploration-Bonus récompense l'agent pour son exploration dans l'espace de caractéristiques plutôt que dans l'espace d'états non transformé. La méthode est plus simple et moins coûteuse en termes de calcul que certaines propositions précédentes, et elle obtient des résultats proches de l'état de l'art sur des benchmarks AR à grande dimension.