HyperAIHyperAI
il y a 2 mois

Incitation à l'exploration dans l'apprentissage par renforcement avec des modèles prédictifs profonds

Bradly C. Stadie; Sergey Levine; Pieter Abbeel
Incitation à l'exploration dans l'apprentissage par renforcement avec des modèles prédictifs profonds
Résumé

L'atteinte d'une exploration efficace et évolutive dans des domaines complexes représente un défi majeur en apprentissage par renforcement. Bien que les approches bayésiennes et PAC-MDP (Probably Approximately Correct Markov Decision Process) de l'exploration offrent des garanties formelles solides, elles sont souvent impraticables en dimensions plus élevées en raison de leur dépendance à l'énumération de l'espace d'états-actions. Par conséquent, l'exploration dans des domaines complexes est généralement réalisée avec des méthodes simples comme epsilon-greedy.Dans cet article, nous nous intéressons au domaine difficile des jeux Atari, qui nécessite le traitement d'entrées brutes sous forme de pixels et la gestion de récompenses retardées. Nous évaluons plusieurs stratégies d'exploration plus sophistiquées, notamment l'échantillonnage de Thompson et l'exploration Boltzmann, et proposons une nouvelle méthode d'exploration basée sur l'attribution de bonus d'exploration à partir d'un modèle dynamique du système appris simultanément. En paramétrant notre modèle appris avec un réseau neuronal, nous sommes capables de développer une approche évolutive et efficace aux bonus d'exploration qui peut être appliquée à des tâches présentant des espaces d'états complexes et de grande dimension.Dans le domaine Atari, notre méthode fournit les améliorations les plus cohérentes sur une gamme de jeux qui posent un défi majeur pour les méthodes précédentes. Outre les scores bruts des jeux, nous avons également développé une métrique AUC-100 (Area Under the Curve over 100 episodes) pour le domaine d'apprentissage Atari afin d'évaluer l'impact de l'exploration sur ce benchmark.