vor 2 Monaten

RUDDER: Rückgabezerlegung für verzögerte Belohnungen

Jose A. Arjona-Medina; Michael Gillhofer; Michael Widrich; Thomas Unterthiner; Johannes Brandstetter; Sepp Hochreiter

Abstract

Wir schlagen RUDDER vor, einen neuen Ansatz des Reinforcement Learnings für verzögerte Belohnungen in endlichen Markov-Entscheidungsprozessen (MDPs). In MDPs sind die Q-Werte gleich der erwarteten unmittelbaren Belohnung plus den erwarteten zukünftigen Belohnungen. Letztere sind mit Bias-Problemen im Temporal-Difference-Lernen (TD) und mit Varianz-Problemen im Monte-Carlo-Lernen (MC) verbunden. Beide Probleme treten noch stärker auf, wenn die Belohnungen verzögert werden. RUDDER zielt darauf ab, die erwarteten zukünftigen Belohnungen auf Null zu reduzieren, was die Schätzung von Q-Werten vereinfacht, indem sie nur auf die Berechnung des Mittelwerts der unmittelbaren Belohnung reduziert wird. Wir schlagen folgende zwei neue Konzepte vor, um die erwarteten zukünftigen Belohnungen auf Null zu bringen: (i) Belohnungsverteilung, die zu return-äquivalenten Entscheidungsprozessen führt, bei denen dieselben optimalen Strategien gelten und bei optimaler Lösung die erwarteten zukünftigen Belohnungen Null betragen. (ii) Return-Zerlegung durch Beitraganalyse, welche die Aufgabe des Reinforcement Learnings in eine Regressionsaufgabe transformiert, bei der Deep Learning besonders gut abschneidet. Bei künstlichen Aufgaben mit verzögerten Belohnungen ist RUDDER deutlich schneller als MC und exponentiell schneller als Monte-Carlo-Baumsuche (MCTS), TD(λ) und Ansätze zur Reward-Shaping. Bei Atari-Spielen verbessert RUDDER auf Basis eines Proximal Policy Optimization (PPO)-Baselines die Scores, wobei diese Verbesserung besonders ausgeprägt ist bei Spielen mit verzögerten Belohnungen. Der Quellcode ist unter \url{https://github.com/ml-jku/rudder} verfügbar und Demonstrationsvideos unter \url{https://goo.gl/EQerZV}.