il y a 2 mois

Exploration Basée sur les Comptes avec des Modèles de Densité Neuronaux

Georg Ostrovski; Marc G. Bellemare; Aaron van den Oord; Remi Munos

Résumé

Bellemare et al. (2016) ont introduit la notion de pseudo-comptage, dérivée d'un modèle de densité, pour généraliser l'exploration basée sur le comptage au renforcement learning non tabulaire. Ce pseudo-comptage a été utilisé pour générer un bonus d'exploration pour un agent DQN et, combiné à une mise à jour mixte Monte Carlo, il était suffisant pour atteindre l'état de l'art dans le jeu Atari 2600 Montezuma's Revenge. Nous abordons deux questions restées ouvertes par leur travail : Premièrement, quelle est l'importance de la qualité du modèle de densité pour l'exploration ? Deuxièmement, quel rôle joue la mise à jour Monte Carlo dans l'exploration ? Nous répondons à la première question en démontrant l'utilisation de PixelCNN, un modèle neuronal avancé de densité pour les images, pour fournir un pseudo-comptage. Plus précisément, nous examinons les difficultés intrinsèques liées à l'adaptation de l'approche de Bellemare et al. lorsque les hypothèses sur le modèle sont violées. Le résultat est un algorithme plus pratique et général qui ne nécessite aucun équipement spécial. Nous combinons les pseudo-comptages PixelCNN avec différentes architectures d'agents pour améliorer considérablement l'état de l'art dans plusieurs jeux Atari difficiles. Une découverte surprenante est que la mise à jour mixte Monte Carlo est un facilitateur puissant de l'exploration dans des environnements très peu fournis en récompenses, y compris Montezuma's Revenge.