il y a 2 mois

Exploration par distillation de réseau aléatoire

Yuri Burda; Harrison Edwards; Amos Storkey; Oleg Klimov

Résumé

Nous présentons un bonus d'exploration pour les méthodes d'apprentissage par renforcement profond qui est facile à mettre en œuvre et ajoute une surcharge minimale aux calculs effectués. Ce bonus correspond à l'erreur d'un réseau neuronal prédisant les caractéristiques des observations fournies par un réseau neuronal initialisé aléatoirement de manière fixe. Nous introduisons également une méthode permettant de combiner de manière flexible les récompenses intrinsèques et extrinsèques. Nous constatons que le bonus de distillation de réseau aléatoire (RND) combiné à cette flexibilité accrue permet des progrès significatifs dans plusieurs jeux Atari à exploration difficile. En particulier, nous établissons des performances de pointe sur Montezuma's Revenge, un jeu notoirement difficile pour les méthodes d'apprentissage par renforcement profond. Selon nos connaissances, c'est la première méthode qui atteint des performances supérieures à la moyenne humaine dans ce jeu sans utiliser de démonstrations ni avoir accès à l'état sous-jacent du jeu, et qui parvient occasionnellement à terminer le premier niveau.