HyperAIHyperAI

Command Palette

Search for a command to run...

Exploration fluide pour l'apprentissage par renforcement robotique

Antonin Raffin Jens Kober Freek Stulp

Résumé

L’apprentissage par renforcement (RL) permet aux robots d’acquérir des compétences grâce à leurs interactions avec le monde réel. En pratique, l’exploration pas à pas non structurée utilisée dans les algorithmes de Deep RL — souvent très efficace dans les simulations — entraîne des mouvements saccadés sur les robots réels. Les conséquences de ce comportement instable incluent une exploration médiocre, voire des dommages matériels. Nous abordons ces problèmes en adaptant l’exploration dépendante de l’état (SDE) aux algorithmes de Deep RL actuels. Pour permettre cette adaptation, nous proposons deux extensions de la SDE originale : l’utilisation de caractéristiques plus générales et le re-sampling périodique du bruit, ce qui donne lieu à une nouvelle méthode d’exploration appelée exploration généralisée dépendante de l’état (gSDE). Nous évaluons gSDE à la fois dans des simulations, sur des tâches de contrôle continu sous PyBullet, et directement sur trois robots réels différents : un robot élastique à tendons, un quadrupède et une voiture télécommandée. L’intervalle d’échantillonnage du bruit de gSDE permet d’atteindre un compromis entre performance et fluidité, permettant ainsi l’entraînement directement sur les robots réels sans perte de performance. Le code est disponible à l’adresse suivante : https://github.com/DLR-RM/stable-baselines3.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp