HyperAIHyperAI
il y a 2 mois

RUDDER : Décomposition du retour pour les récompenses retardées

Jose A. Arjona-Medina; Michael Gillhofer; Michael Widrich; Thomas Unterthiner; Johannes Brandstetter; Sepp Hochreiter
RUDDER : Décomposition du retour pour les récompenses retardées
Résumé

Nous proposons RUDDER, une nouvelle approche d'apprentissage par renforcement pour les récompenses retardées dans les processus de décision markoviens finis (MDPs). Dans les MDPs, les Q-valeurs sont égales à la récompense immédiate attendue plus aux récompenses futures attendues. Ces dernières sont liées aux problèmes de biais dans l'apprentissage par différence temporelle (TD) et aux problèmes de forte variance dans l'apprentissage Monte Carlo (MC). Ces problèmes sont encore plus graves lorsque les récompenses sont retardées. RUDDER vise à rendre les récompenses futures attendues nulles, ce qui simplifie l'estimation des Q-valeurs à la calcul de la moyenne de la récompense immédiate. Nous proposons les deux concepts novateurs suivants pour pousser les récompenses futures attendues vers zéro : (i) Redistribution des récompenses conduisant à des processus de décision équivalents en retour avec les mêmes politiques optimales et, lorsqu'elles sont optimales, des récompenses futures attendues nulles. (ii) Décomposition du retour par analyse de contribution qui transforme la tâche d'apprentissage par renforcement en une tâche de régression où le deep learning excelle. Sur des tâches artificielles avec des récompenses retardées, RUDDER est significativement plus rapide que MC et exponentiellement plus rapide que la recherche arborescente Monte Carlo (MCTS), TD(λ) et les approches de façonnage des récompenses. Dans les jeux Atari, RUDDER appliqué sur une base de ligne de fond d'optimisation de politique proximale (PPO) améliore les scores, ce qui est particulièrement notable dans les jeux avec des récompenses retardées. Le code source est disponible à l'adresse \url{https://github.com/ml-jku/rudder} et des vidéos démonstratives à l'adresse \url{https://goo.gl/EQerZV}.