HyperAIHyperAI

Command Palette

Search for a command to run...

Contrôle continu avec l'apprentissage par renforcement profond

Timothy P. Lillicrap; Jonathan J. Hunt; Alexander Pritzel; Nicolas Heess; Tom Erez; Yuval Tassa; David Silver; Daan Wierstra

Résumé

Nous adaptons les idées à la base du succès de l'apprentissage profond par Q (Deep Q-Learning) au domaine des actions continues. Nous présentons un algorithme acteur-critique, sans modèle, basé sur le gradient de politique déterministe qui peut fonctionner sur des espaces d'actions continus. En utilisant le même algorithme d'apprentissage, la même architecture de réseau et les mêmes hyperparamètres, notre algorithme résout de manière robuste plus de 20 tâches physiques simulées, incluant des problèmes classiques tels que le renversement du pendule sur chariot (cartpole swing-up), la manipulation délicate, la locomotion à pattes et la conduite automobile. Notre algorithme est capable de trouver des politiques dont les performances sont compétitives avec celles découvertes par un algorithme de planification ayant un accès complet aux dynamiques du domaine et à leurs dérivées. Nous montrons également que pour nombre de ces tâches, l'algorithme peut apprendre les politiques bout-à-bout : directement à partir des entrées en pixels bruts.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Contrôle continu avec l'apprentissage par renforcement profond | Articles | HyperAI