HyperAIHyperAI
il y a 13 jours

Contrôle au niveau humain par apprentissage par renforcement profond

{Shane Legg1 & Demis Hassabis, Daan Wierstra, Dharshan Kumaran, Helen King, Ioannis Antonoglou, Amir Sadik, Charles Beattie, Stig Petersen, Georg Ostrovski, Andreas K. Fidjeland, Martin Riedmiller, Alex Graves, Marc G. Bellemare, Joel Veness, Andrei A. Rusu, David Silver, Koray Kavukcuoglu, Volodymyr Mnih}
Résumé

La théorie de l’apprentissage par renforcement fournit un cadre normatif, profondément ancré dans les perspectives psychologiques et neuroscientifiques du comportement animal, sur la manière dont les agents peuvent optimiser leur contrôle d’un environnement. Toutefois, pour appliquer efficacement l’apprentissage par renforcement dans des situations approchant la complexité du monde réel, les agents doivent relever un défi difficile : ils doivent extraire des représentations efficaces de l’environnement à partir d’entrées sensorielles à haute dimension, et les utiliser pour généraliser leurs expériences passées à de nouvelles situations. De manière remarquable, les humains et d’autres animaux semblent résoudre ce problème grâce à une combinaison harmonieuse entre apprentissage par renforcement et systèmes hiérarchiques de traitement sensoriel, le premier étant soutenu par une abondance de données neuronales révélant des analogies notables entre les signaux phasiques émis par les neurones dopaminergiques et les algorithmes d’apprentissage par différence temporelle. Bien que les agents d’apprentissage par renforcement aient connu certains succès dans divers domaines, leur application était jusqu’à présent limitée à des domaines où des caractéristiques utiles pouvaient être conçues manuellement, ou à des domaines à espace d’état complètement observé et à faible dimension. Dans cet article, nous exploitons les avancées récentes dans l’entraînement des réseaux de neurones profonds pour développer un nouvel agent artificiel, appelé réseau Q profond (deep Q-network), capable d’apprendre des politiques efficaces directement à partir d’entrées sensorielles à haute dimension via un apprentissage par renforcement end-to-end. Nous avons testé cet agent sur le domaine exigeant des jeux classiques Atari 2600. Nous démontrons que l’agent réseau Q profond, recevant uniquement les pixels et le score du jeu en entrée, a surpassé les performances de tous les algorithmes précédents et atteint un niveau comparable à celui d’un joueur humain professionnel sur un ensemble de 49 jeux, en utilisant le même algorithme, la même architecture de réseau et les mêmes hyperparamètres. Ce travail comble le fossé entre les entrées sensorielles à haute dimension et les actions, marquant la première réalisation d’un agent artificiel capable d’apprendre à exceller dans une diversité de tâches complexes.