HyperAIHyperAI

Command Palette

Search for a command to run...

Exploration par distillation de réseau aléatoire

Yuri Burda* OpenAI Harrison Edwards* OpenAI Amos Storkey Univ. of Edinburgh Oleg Klimov OpenAI

Résumé

Nous présentons un bonus d'exploration pour les méthodes d'apprentissage par renforcement profond qui est facile à mettre en œuvre et ajoute une surcharge minimale aux calculs effectués. Ce bonus correspond à l'erreur d'un réseau neuronal prédisant les caractéristiques des observations fournies par un réseau neuronal initialisé aléatoirement de manière fixe. Nous introduisons également une méthode permettant de combiner de manière flexible les récompenses intrinsèques et extrinsèques. Nous constatons que le bonus de distillation de réseau aléatoire (RND) combiné à cette flexibilité accrue permet des progrès significatifs dans plusieurs jeux Atari à exploration difficile. En particulier, nous établissons des performances de pointe sur Montezuma's Revenge, un jeu notoirement difficile pour les méthodes d'apprentissage par renforcement profond. Selon nos connaissances, c'est la première méthode qui atteint des performances supérieures à la moyenne humaine dans ce jeu sans utiliser de démonstrations ni avoir accès à l'état sous-jacent du jeu, et qui parvient occasionnellement à terminer le premier niveau.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp