HyperAIHyperAI

Command Palette

Search for a command to run...

Régression pondérée par avantage : apprentissage par renforcement hors politique simple et évolutif

Xue Bin Peng Aviral Kumar Grace Zhang Sergey Levine

Résumé

Dans cet article, nous visons à développer un algorithme simple et évolutif d’apprentissage par renforcement qui utilise des méthodes d’apprentissage supervisé classiques comme sous-routines. Notre objectif est d’obtenir un algorithme fondé uniquement sur des fonctions de perte de maximum de vraisemblance simples et convergentes, tout en étant capable d’exploiter efficacement des données hors politique (off-policy). Notre approche proposée, que nous appelons régression pondérée par avantage (advantage-weighted regression, AWR), repose sur deux étapes d’apprentissage supervisé standard : la première consiste à régresser vers des valeurs cibles pour une fonction valeur, la seconde à régresser vers des actions cibles pondérées pour la politique. Cette méthode est simple, générale, compatible avec des actions continues comme discrètes, et peut être mise en œuvre en quelques lignes de code à partir de méthodes d’apprentissage supervisé classiques. Nous fournissons une justification théorique à AWR et analysons ses propriétés lorsqu’elle intègre des données hors politique issues d’un répertoire d’expérience (experience replay). Nous évaluons AWR sur une série de tâches standard du benchmark OpenAI Gym, et montrons qu’elle atteint des performances compétitives par rapport à plusieurs algorithmes d’apprentissage par renforcement d’état de l’art bien établis. AWR est également capable d’apprendre des politiques plus efficaces que la plupart des algorithmes hors politique lorsqu’elle est entraînée sur des jeux de données statiques, sans interaction supplémentaire avec l’environnement. Enfin, nous démontrons la capacité de notre algorithme sur des tâches de contrôle continu complexes, impliquant des personnages simulés hautement sophistiqués.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp