Command Palette
Search for a command to run...
Critique d'Acteur Moyen
Critique d'Acteur Moyen
Cameron Allen extsuperscript1 extsuperscript* Kavosh Asadi extsuperscript1 extsuperscript* Melrose Roderick extsuperscript1 Abdel-rahman Mohamed extsuperscript2 extsuperscript† George Konidaris extsuperscript1 Michael Littman extsuperscript1
Résumé
Nous proposons un nouvel algorithme, Mean Actor-Critic (MAC), pour l'apprentissage par renforcement avec des actions discrètes et des états continus. MAC est un algorithme de gradient de politique qui utilise la représentation explicite de toutes les valeurs d'action de l'agent pour estimer le gradient de la politique, plutôt que d'utiliser uniquement les actions qui ont été effectivement exécutées. Nous démontrons que cette approche réduit la variance dans l'estimation du gradient de la politique par rapport aux méthodes acteur-critique traditionnelles. Nous présentons des résultats empiriques sur deux domaines de contrôle et sur six jeux Atari, où MAC se montre compétitif avec les algorithmes de recherche de politique les plus avancés.