il y a 2 mois

Une perspective distributionnelle sur l'apprentissage par renforcement

Marc G. Bellemare; Will Dabney; Rémi Munos

Résumé

Dans cet article, nous soutenons l'importance fondamentale de la distribution des valeurs : la distribution du rendement aléatoire reçu par un agent d'apprentissage par renforcement. Cela contraste avec l'approche courante de l'apprentissage par renforcement, qui modélise l'espérance de ce rendement, ou valeur. Bien qu'il existe une littérature établie étudiant la distribution des valeurs, jusqu'à présent elle a toujours été utilisée pour un objectif spécifique, comme la mise en œuvre d'un comportement prenant en compte le risque. Nous commençons par des résultats théoriques dans les contextes d'évaluation de politique et de contrôle, révélant une instabilité distributive significative dans ce dernier. Nous utilisons ensuite cette perspective distributive pour concevoir un nouvel algorithme qui applique l'équation de Bellman à l'apprentissage de distributions de valeurs approximatives. Nous évaluons notre algorithme en utilisant une suite de jeux provenant de l'Environnement d'Apprentissage des Arcade (Arcade Learning Environment). Nous obtenons à la fois des résultats à la pointe de l'état de l'art et des observations anecdotiques démontrant l'importance de la distribution des valeurs dans l'apprentissage par renforcement approximatif. Enfin, nous combinons des preuves théoriques et empiriques pour mettre en lumière les façons dont la distribution des valeurs influence l'apprentissage dans le cadre approximatif.