HyperAIHyperAI
il y a 13 jours

Agent57 : Dépasser la performance humaine sur Atari

Adrià Puigdomènech Badia, Bilal Piot, Steven Kapturowski, Pablo Sprechmann, Alex Vitvitskyi, Daniel Guo, Charles Blundell
Agent57 : Dépasser la performance humaine sur Atari
Résumé

Les jeux Atari ont constitué depuis une décennie une référence incontournable dans la communauté de l'apprentissage par renforcement (RL). Cette référence a été proposée afin d'évaluer la compétence générale des algorithmes de RL. Les travaux antérieurs ont obtenu des performances moyennes satisfaisantes en excellant sur de nombreux jeux de la série, mais en se montrant particulièrement faibles sur plusieurs des jeux les plus exigeants. Nous proposons Agent57, le premier agent de RL profond à surpasser la performance moyenne humaine standard sur l'ensemble des 57 jeux Atari. Pour atteindre ce résultat, nous entraînons un réseau de neurones qui paramétrise une famille de politiques allant d'extrêmement exploratoires à purement exploitatrices. Nous introduisons un mécanisme adaptatif pour sélectionner, au cours du processus d'entraînement, la politique à privilégier. En outre, nous utilisons une nouvelle paramétrisation de l'architecture, permettant un apprentissage plus cohérent et plus stable.