HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage par renforcement distributionnel avec régression quantile

Will Dabney; Mark Rowland; Marc G. Bellemare; Rémi Munos

Résumé

Dans l'apprentissage par renforcement, un agent interagit avec son environnement en effectuant des actions et en observant l'état suivant ainsi que la récompense. Lorsqu'ils sont échantillonnés de manière probabiliste, ces transitions d'état, récompenses et actions peuvent toutes induire une aléatorité dans le rendement à long terme observé. Traditionnellement, les algorithmes d'apprentissage par renforcement moyennent cette aléatorité pour estimer la fonction de valeur. Dans cet article, nous nous appuyons sur des travaux récents qui plaident pour une approche distributionnelle de l'apprentissage par renforcement, où la distribution des rendements est modélisée explicitement au lieu d'estimer uniquement la moyenne. Autrement dit, nous examinons des méthodes pour apprendre la distribution de valeur plutôt que la fonction de valeur. Nous présentons des résultats qui combleront plusieurs lacunes entre les résultats théoriques et algorithmiques donnés par Bellemare, Dabney et Munos (2017). Premièrement, nous étendons les résultats existants au cadre de distribution approximée. Deuxièmement, nous présentons un nouvel algorithme d'apprentissage par renforcement distributionnel conforme à notre formulation théorique. Enfin, nous évaluons cet nouvel algorithme sur les jeux Atari 2600, constatant qu'il surpasse significativement nombre des améliorations récentes apportées à DQN, y compris l'algorithme distributionnel connexe C51.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp