il y a 16 jours

Exploration fluide pour l'apprentissage par renforcement robotique

Antonin Raffin, Jens Kober, Freek Stulp

Résumé

L’apprentissage par renforcement (RL) permet aux robots d’acquérir des compétences grâce à leurs interactions avec le monde réel. En pratique, l’exploration pas à pas non structurée utilisée dans les algorithmes de Deep RL — souvent très efficace dans les simulations — entraîne des mouvements saccadés sur les robots réels. Les conséquences de ce comportement instable incluent une exploration médiocre, voire des dommages matériels. Nous abordons ces problèmes en adaptant l’exploration dépendante de l’état (SDE) aux algorithmes de Deep RL actuels. Pour permettre cette adaptation, nous proposons deux extensions de la SDE originale : l’utilisation de caractéristiques plus générales et le re-sampling périodique du bruit, ce qui donne lieu à une nouvelle méthode d’exploration appelée exploration généralisée dépendante de l’état (gSDE). Nous évaluons gSDE à la fois dans des simulations, sur des tâches de contrôle continu sous PyBullet, et directement sur trois robots réels différents : un robot élastique à tendons, un quadrupède et une voiture télécommandée. L’intervalle d’échantillonnage du bruit de gSDE permet d’atteindre un compromis entre performance et fluidité, permettant ainsi l’entraînement directement sur les robots réels sans perte de performance. Le code est disponible à l’adresse suivante : https://github.com/DLR-RM/stable-baselines3.