Command Palette
Search for a command to run...
Benchmarking de l'apprentissage par renforcement profond pour le contrôle continu
Benchmarking de l'apprentissage par renforcement profond pour le contrôle continu
Duan Yan Chen Xi Houthooft Rein Schulman John Abbeel Pieter
Résumé
Récemment, les chercheurs ont réalisé des progrès significatifs en combinant les avancées du deep learning pour l’apprentissage de représentations de caractéristiques avec l’apprentissage par renforcement. Parmi les exemples notables figurent l’entraînement d’agents à jouer à des jeux Atari à partir de données brutes de pixels, ainsi que l’acquisition de compétences complexes en manipulation à l’aide d’entrées sensorielles brutes. Toutefois, il a été difficile de mesurer les progrès dans le domaine du contrôle continu en raison de l’absence d’un benchmark largement adopté. Dans ce travail, nous présentons une suite de benchmarks comprenant des tâches de contrôle continu, incluant des tâches classiques telles que la mise en oscillation du chariot-pendule, des tâches à très haute dimension de l’espace d’état et d’action, comme la locomotion d’un humanoïde en 3D, des tâches à observations partielles, ainsi que des tâches à structure hiérarchique. Nous rapportons des résultats novateurs issus d’une évaluation systématique de divers algorithmes d’apprentissage par renforcement. Le benchmark ainsi que ses implémentations de référence sont mis à disposition à l’adresse suivante : https://github.com/rllab/rllab, afin de faciliter la reproductibilité expérimentale et d’encourager leur adoption par d’autres chercheurs.