Jamais Ne Rendez-vous : Apprendre des Stratégies Dirigées d'Exploration

Nous proposons un agent d’apprentissage par renforcement capable de résoudre des jeux à exploration difficile en apprenant une variété de politiques d’exploration dirigées. Nous construisons une récompense intrinsèque basée sur une mémoire épisodique en utilisant le voisinage à k plus proches (k-nearest neighbors) sur les expériences récentes de l’agent afin d’entraîner ces politiques d’exploration dirigées, ce qui encourage l’agent à revisiter de manière répétée tous les états de son environnement. Un modèle d’inverse dynamique auto-supervisé est employé pour entraîner les embeddings utilisés dans la recherche de voisins proches, biaisant ainsi le signal de nouveauté vers ce que l’agent peut contrôler. Nous utilisons le cadre des Approximateurs Universels de Fonctions de Valeur (Universal Value Function Approximators, UVFA) pour apprendre simultanément plusieurs politiques d’exploration dirigées avec un même réseau neuronal, en ajustant différents compromis entre exploration et exploitation. En utilisant le même réseau neuronal pour des degrés variés d’exploration/exploitation, nous démontrons un transfert efficace vers des politiques exploitantes, issues initialement de politiques fortement exploratoires. La méthode proposée peut être intégrée à des agents modernes d’apprentissage par renforcement distribués, capables de collecter de grandes quantités d’expérience via de nombreux acteurs fonctionnant en parallèle sur des instances d’environnement distinctes. Notre approche double la performance de l’agent de base sur tous les jeux à exploration difficile de la suite Atari-57, tout en maintenant un score très élevé sur les autres jeux, atteignant un score médian normalisé par rapport à l’humain de 1344,0 %. Notamment, cette méthode est la première à atteindre des récompenses non nulles (avec une moyenne de 8 400) dans le jeu Pitfall! sans recourir à des démonstrations ou à des caractéristiques manuellement conçues.