HyperAIHyperAI

Command Palette

Search for a command to run...

Benchmarking de l'apprentissage par renforcement profond pour le contrôle continu

Duan Yan Chen Xi Houthooft Rein Schulman John Abbeel Pieter

Résumé

Récemment, les chercheurs ont réalisé des progrès significatifs en combinant les avancées du deep learning pour l’apprentissage de représentations de caractéristiques avec l’apprentissage par renforcement. Parmi les exemples notables figurent l’entraînement d’agents à jouer à des jeux Atari à partir de données brutes de pixels, ainsi que l’acquisition de compétences complexes en manipulation à l’aide d’entrées sensorielles brutes. Toutefois, il a été difficile de mesurer les progrès dans le domaine du contrôle continu en raison de l’absence d’un benchmark largement adopté. Dans ce travail, nous présentons une suite de benchmarks comprenant des tâches de contrôle continu, incluant des tâches classiques telles que la mise en oscillation du chariot-pendule, des tâches à très haute dimension de l’espace d’état et d’action, comme la locomotion d’un humanoïde en 3D, des tâches à observations partielles, ainsi que des tâches à structure hiérarchique. Nous rapportons des résultats novateurs issus d’une évaluation systématique de divers algorithmes d’apprentissage par renforcement. Le benchmark ainsi que ses implémentations de référence sont mis à disposition à l’adresse suivante : https://github.com/rllab/rllab, afin de faciliter la reproductibilité expérimentale et d’encourager leur adoption par d’autres chercheurs.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Benchmarking de l'apprentissage par renforcement profond pour le contrôle continu | Articles | HyperAI