Command Palette
Search for a command to run...
Contrôle continu avec l'apprentissage par renforcement profond
Contrôle continu avec l'apprentissage par renforcement profond
Timothy P. Lillicrap; Jonathan J. Hunt; Alexander Pritzel; Nicolas Heess; Tom Erez; Yuval Tassa; David Silver; Daan Wierstra
Résumé
Nous adaptons les idées à la base du succès de l'apprentissage profond par Q (Deep Q-Learning) au domaine des actions continues. Nous présentons un algorithme acteur-critique, sans modèle, basé sur le gradient de politique déterministe qui peut fonctionner sur des espaces d'actions continus. En utilisant le même algorithme d'apprentissage, la même architecture de réseau et les mêmes hyperparamètres, notre algorithme résout de manière robuste plus de 20 tâches physiques simulées, incluant des problèmes classiques tels que le renversement du pendule sur chariot (cartpole swing-up), la manipulation délicate, la locomotion à pattes et la conduite automobile. Notre algorithme est capable de trouver des politiques dont les performances sont compétitives avec celles découvertes par un algorithme de planification ayant un accès complet aux dynamiques du domaine et à leurs dérivées. Nous montrons également que pour nombre de ces tâches, l'algorithme peut apprendre les politiques bout-à-bout : directement à partir des entrées en pixels bruts.