Münchhausen Reinforcement Learning

Bootstrapping ist ein zentraler Mechanismus im Verstärkenden Lernen (Reinforcement Learning, RL). Die meisten Algorithmen, die auf temporalen Differenzen basieren, ersetzen den wahren Wert eines Übergangszustands durch ihre aktuelle Schätzung dieses Wertes. Doch neben dieser Schätzung könnte auch die aktuelle Politik zur Bootstrapping-Technik herangezogen werden. Unser zentrales Ergebnis basiert auf einer sehr einfachen Idee: die Hinzufügung des skalierten Log-Politik-Werts zur unmittelbaren Belohnung. Wir zeigen, dass eine geringfügige Modifikation des Deep Q-Networks (DQN) auf diese Weise ein Agentenverhalten ermöglicht, das mit verteilungsorientierten Methoden auf Atari-Spielen konkurrieren kann – und zwar ohne die Verwendung von verteilungsorientiertem RL, n-Schritt-Rückmeldungen oder priorisierter Replay. Um die Vielseitigkeit dieser Idee zu demonstrieren, kombinieren wir sie zudem mit einem impliziten Quantilnetzwerk (Implicit Quantile Network, IQN). Der resultierende Agent übertrifft Rainbow auf Atari-Spielen und etabliert mit nur minimalen Änderungen am ursprünglichen Algorithmus eine neue State-of-the-Art-Leistung. Ergänzend zu dieser empirischen Studie liefern wir starke theoretische Einblicke in die zugrundeliegenden Mechanismen – insbesondere eine implizite Kullback-Leibler-Regularisierung und eine Erhöhung der Action-Gap-Struktur.