il y a 2 mois

Apprentissage par renforcement distributionnel avec régression quantile

Will Dabney; Mark Rowland; Marc G. Bellemare; Rémi Munos

Résumé

Dans l'apprentissage par renforcement, un agent interagit avec son environnement en effectuant des actions et en observant l'état suivant ainsi que la récompense. Lorsqu'ils sont échantillonnés de manière probabiliste, ces transitions d'état, récompenses et actions peuvent toutes induire une aléatorité dans le rendement à long terme observé. Traditionnellement, les algorithmes d'apprentissage par renforcement moyennent cette aléatorité pour estimer la fonction de valeur. Dans cet article, nous nous appuyons sur des travaux récents qui plaident pour une approche distributionnelle de l'apprentissage par renforcement, où la distribution des rendements est modélisée explicitement au lieu d'estimer uniquement la moyenne. Autrement dit, nous examinons des méthodes pour apprendre la distribution de valeur plutôt que la fonction de valeur. Nous présentons des résultats qui combleront plusieurs lacunes entre les résultats théoriques et algorithmiques donnés par Bellemare, Dabney et Munos (2017). Premièrement, nous étendons les résultats existants au cadre de distribution approximée. Deuxièmement, nous présentons un nouvel algorithme d'apprentissage par renforcement distributionnel conforme à notre formulation théorique. Enfin, nous évaluons cet nouvel algorithme sur les jeux Atari 2600, constatant qu'il surpasse significativement nombre des améliorations récentes apportées à DQN, y compris l'algorithme distributionnel connexe C51.