HyperAIHyperAI
vor 2 Monaten

Implizite Quantil-Netzwerke für distributionelles Reinforcement Learning

Will Dabney; Georg Ostrovski; David Silver; Rémi Munos
Implizite Quantil-Netzwerke für distributionelles Reinforcement Learning
Abstract

In dieser Arbeit bauen wir auf jüngste Fortschritte im verteilungsorientierten Reinforcement Learning auf, um eine allgemein anwendbare, flexible und standesgemäß verteilungsorientierte Variante von DQN zu entwickeln. Dies erreichen wir durch die Verwendung von Quantilsregression zur Approximation der vollständigen Quantilfunktion für die Verteilung des Zustand-Aktions-Rückgewinns (state-action return distribution). Durch die Reparametrisierung einer Verteilung über dem Stichprobenraum ergibt sich eine implizit definierte Rückgewinnverteilung und entstehen eine große Klasse risikosensibler Strategien. Wir zeigen verbesserte Leistungen bei den 57 Atari 2600 Spielen in der Arcade Learning Environment (ALE) und nutzen die implizit definierten Verteilungen unseres Algorithmus, um die Auswirkungen risikosensibler Strategien in Atari-Spielen zu untersuchen.