Politiques dynamiques neurales pour l'apprentissage sensorimoteur end-to-end

Le paradigme dominant actuel en contrôle sensorimoteur, qu’il s’agisse d’apprentissage par imitation ou d’apprentissage par renforcement, consiste à entraîner directement les politiques dans des espaces d’actions brutes, tels que les couples, les angles articulaires ou les positions de l’extrémité effectrice. Cette approche oblige l’agent à prendre des décisions de manière indépendante à chaque pas de temps durant l’entraînement, ce qui limite fortement la scalabilité aux tâches continues, à haute dimension et à horizon long. À l’inverse, la recherche en robotique classique exploite depuis longtemps les systèmes dynamiques comme représentation de politique pour apprendre des comportements robotiques à partir de démonstrations. Ces méthodes, toutefois, manquent de la flexibilité et de la généralisation offertes par l’apprentissage profond ou l’apprentissage par renforcement, et sont restées largement sous-exploitées dans ces contextes. Dans ce travail, nous commençons à combler cet écart en intégrant la structure d’un système dynamique dans des politiques basées sur les réseaux de neurones profonds, en réparamétrant les espaces d’actions à l’aide d’équations différentielles du second ordre. Nous proposons des Politiques Dynamiques Neuronales (NDPs), qui effectuent des prédictions dans l’espace des distributions de trajectoires, contrairement aux méthodes antérieures où les actions représentent directement l’espace de contrôle brut. Cette structure intégrée permet un apprentissage end-to-end des politiques, aussi bien dans des cadres d’apprentissage par renforcement que d’apprentissage par imitation. Nous démontrons que les NDPs surpassent l’état de l’art antérieur en termes d’efficacité ou de performance sur plusieurs tâches de contrôle robotique, dans les deux cadres d’apprentissage. Une vidéo du projet et le code sont disponibles à l’adresse suivante : https://shikharbahl.github.io/neural-dynamic-policies/