Retournez d'abord, puis explorez

La promesse de l’apprentissage par renforcement réside dans sa capacité à résoudre de manière autonome des problèmes décisionnels séquentiels complexes en ne spécifiant qu’une fonction de récompense de haut niveau. Toutefois, les algorithmes d’apprentissage par renforcement peinent lorsqu’ils sont confrontés à des récompenses simples et intuitives, qui fournissent souvent des retours rares et trompeurs. Pour éviter ces pièges, une exploration approfondie de l’environnement est nécessaire, mais la conception d’algorithmes capables d’effectuer une telle exploration demeure l’un des défis centraux du domaine. Nous proposons que l’obstacle principal à une exploration efficace provienne de deux phénomènes : les algorithmes oublient comment atteindre des états précédemment visités (« détachement »), et ils échouent à retourner d’abord à un état avant d’entreprendre une exploration à partir de celui-ci (« déraillement »). Nous introduisons Go-Explore, une famille d’algorithmes qui affronte directement ces deux problèmes grâce à des principes simples : mémoriser explicitement les états prometteurs, puis y retourner systématiquement avant d’explorer intentionnellement à partir d’eux. Go-Explore résout tous les jeux Atari auparavant insolubles et dépasse l’état de l’art sur l’ensemble des jeux à exploration difficile, avec des améliorations d’un ordre de grandeur sur les défis majeurs Montezuma’s Revenge et Pitfall. Nous démontrons également le potentiel pratique de Go-Explore sur une tâche robotique à récompense rare, consistant à saisir et déplacer des objets. En outre, nous montrons qu’ajouter une politique conditionnée à un objectif améliore davantage l’efficacité d’exploration de Go-Explore et lui permet de gérer la stochasticité tout au long de l’apprentissage. Les gains substantiels de performance obtenus avec Go-Explore suggèrent que les principes simples de mémorisation d’états, retour à ces états, puis exploration à partir d’eux, constituent une approche puissante et générale pour l’exploration — une insight qui pourrait s’avérer cruciale pour le développement d’agents d’apprentissage véritablement intelligents.