HyperAIHyperAI

Command Palette

Search for a command to run...

Exploration Basée sur les Comptes avec des Modèles de Densité Neuronaux

Georg Ostrovski; Marc G. Bellemare; Aaron van den Oord; Remi Munos

Résumé

Bellemare et al. (2016) ont introduit la notion de pseudo-comptage, dérivée d'un modèle de densité, pour généraliser l'exploration basée sur le comptage au renforcement learning non tabulaire. Ce pseudo-comptage a été utilisé pour générer un bonus d'exploration pour un agent DQN et, combiné à une mise à jour mixte Monte Carlo, il était suffisant pour atteindre l'état de l'art dans le jeu Atari 2600 Montezuma's Revenge. Nous abordons deux questions restées ouvertes par leur travail : Premièrement, quelle est l'importance de la qualité du modèle de densité pour l'exploration ? Deuxièmement, quel rôle joue la mise à jour Monte Carlo dans l'exploration ? Nous répondons à la première question en démontrant l'utilisation de PixelCNN, un modèle neuronal avancé de densité pour les images, pour fournir un pseudo-comptage. Plus précisément, nous examinons les difficultés intrinsèques liées à l'adaptation de l'approche de Bellemare et al. lorsque les hypothèses sur le modèle sont violées. Le résultat est un algorithme plus pratique et général qui ne nécessite aucun équipement spécial. Nous combinons les pseudo-comptages PixelCNN avec différentes architectures d'agents pour améliorer considérablement l'état de l'art dans plusieurs jeux Atari difficiles. Une découverte surprenante est que la mise à jour mixte Monte Carlo est un facilitateur puissant de l'exploration dans des environnements très peu fournis en récompenses, y compris Montezuma's Revenge.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Exploration Basée sur les Comptes avec des Modèles de Densité Neuronaux | Articles | HyperAI