HyperAIHyperAI

Command Palette

Search for a command to run...

Politiques dynamiques neurales pour l'apprentissage sensorimoteur end-to-end

Shikhar Bahl Mustafa Mukadam Abhinav Gupta Deepak Pathak

Résumé

Le paradigme dominant actuel en contrôle sensorimoteur, qu’il s’agisse d’apprentissage par imitation ou d’apprentissage par renforcement, consiste à entraîner directement les politiques dans des espaces d’actions brutes, tels que les couples, les angles articulaires ou les positions de l’extrémité effectrice. Cette approche oblige l’agent à prendre des décisions de manière indépendante à chaque pas de temps durant l’entraînement, ce qui limite fortement la scalabilité aux tâches continues, à haute dimension et à horizon long. À l’inverse, la recherche en robotique classique exploite depuis longtemps les systèmes dynamiques comme représentation de politique pour apprendre des comportements robotiques à partir de démonstrations. Ces méthodes, toutefois, manquent de la flexibilité et de la généralisation offertes par l’apprentissage profond ou l’apprentissage par renforcement, et sont restées largement sous-exploitées dans ces contextes. Dans ce travail, nous commençons à combler cet écart en intégrant la structure d’un système dynamique dans des politiques basées sur les réseaux de neurones profonds, en réparamétrant les espaces d’actions à l’aide d’équations différentielles du second ordre. Nous proposons des Politiques Dynamiques Neuronales (NDPs), qui effectuent des prédictions dans l’espace des distributions de trajectoires, contrairement aux méthodes antérieures où les actions représentent directement l’espace de contrôle brut. Cette structure intégrée permet un apprentissage end-to-end des politiques, aussi bien dans des cadres d’apprentissage par renforcement que d’apprentissage par imitation. Nous démontrons que les NDPs surpassent l’état de l’art antérieur en termes d’efficacité ou de performance sur plusieurs tâches de contrôle robotique, dans les deux cadres d’apprentissage. Une vidéo du projet et le code sont disponibles à l’adresse suivante : https://shikharbahl.github.io/neural-dynamic-policies/


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Politiques dynamiques neurales pour l'apprentissage sensorimoteur end-to-end | Articles | HyperAI