Go-Explore : Une Nouvelle Approche pour les Problèmes d'Exploration Difficile

Un défi majeur en apprentissage par renforcement est l'exploration intelligente, en particulier lorsque les récompenses sont rares ou trompeuses. Deux jeux Atari servent de références pour ces domaines d'exploration difficile : Montezuma's Revenge et Pitfall. Sur ces deux jeux, les algorithmes d'apprentissage par renforcement actuels ont des performances médiocres, même ceux dotés de motivation intrinsèque, qui est la méthode dominante pour améliorer les performances dans les domaines d'exploration difficile. Pour remédier à ce manque, nous présentons un nouvel algorithme appelé Go-Explore. Cet algorithme exploite les principes suivants : (1) mémoriser les états précédemment visités, (2) revenir d'abord à un état prometteur (sans exploration), puis explorer à partir de celui-ci, et (3) résoudre des environnements simulés par tous les moyens disponibles (y compris en introduisant du déterminisme), puis robustifier par apprentissage par imitation. L'effet combiné de ces principes est une amélioration spectaculaire des performances sur les problèmes d'exploration difficile. Dans Montezuma's Revenge, Go-Explore obtient une moyenne de plus de 43 000 points, presque quatre fois le niveau d'avant-garde précédent. Go-Explore peut également utiliser des connaissances du domaine fournies par des humains et, lorsqu'il est augmenté avec celles-ci, il atteint une moyenne de plus de 650 000 points dans Montezuma's Revenge. Sa performance maximale d'environ 18 millions dépasse le record mondial humain, répondant ainsi même à la définition la plus stricte de « performance supra-humaine ». Dans Pitfall, Go-Explore avec des connaissances du domaine est le premier algorithme à obtenir un score supérieur à zéro. Sa moyenne de presque 60 000 points dépasse la performance humaine experte. Comme Go-Explore produit automatiquement et à moindre coût des démonstrations performantes, il surpasse également les travaux d'apprentissage par imitation où des humains fournissent des démonstrations de solutions. Go-Explore ouvre de nombreuses nouvelles directions de recherche pour son amélioration et l'intégration de ses insights dans les algorithmes d'apprentissage par renforcement actuels. Il pourrait également permettre des progrès sur des problèmes d'exploration difficiles auparavant insolubles dans de nombreux domaines, en particulier ceux qui utilisent un simulateur pendant l'entraînement (par exemple, la robotique).