HyperAIHyperAI

Command Palette

Search for a command to run...

Une perspective distributionnelle sur l'apprentissage par renforcement

Marc G. Bellemare; Will Dabney; Rémi Munos

Résumé

Dans cet article, nous soutenons l'importance fondamentale de la distribution des valeurs : la distribution du rendement aléatoire reçu par un agent d'apprentissage par renforcement. Cela contraste avec l'approche courante de l'apprentissage par renforcement, qui modélise l'espérance de ce rendement, ou valeur. Bien qu'il existe une littérature établie étudiant la distribution des valeurs, jusqu'à présent elle a toujours été utilisée pour un objectif spécifique, comme la mise en œuvre d'un comportement prenant en compte le risque. Nous commençons par des résultats théoriques dans les contextes d'évaluation de politique et de contrôle, révélant une instabilité distributive significative dans ce dernier. Nous utilisons ensuite cette perspective distributive pour concevoir un nouvel algorithme qui applique l'équation de Bellman à l'apprentissage de distributions de valeurs approximatives. Nous évaluons notre algorithme en utilisant une suite de jeux provenant de l'Environnement d'Apprentissage des Arcade (Arcade Learning Environment). Nous obtenons à la fois des résultats à la pointe de l'état de l'art et des observations anecdotiques démontrant l'importance de la distribution des valeurs dans l'apprentissage par renforcement approximatif. Enfin, nous combinons des preuves théoriques et empiriques pour mettre en lumière les façons dont la distribution des valeurs influence l'apprentissage dans le cadre approximatif.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp