vor 17 Tagen

Vollständig parametrisierte Quantilfunktion für verteilungsbasiertes Verstärkungslernen

Derek Yang, Li Zhao, Zichuan Lin, Tao Qin, Jiang Bian, Tieyan Liu

Abstract

Verteilungsbasiertes Verstärkendes Lernen (Distributional Reinforcement Learning, RL) unterscheidet sich vom herkömmlichen RL dadurch, dass es statt des Erwartungswerts der Gesamtrecompensen Verteilungen schätzt und bereits eine state-of-the-art-Leistung bei Atari-Spielen erzielt hat. Die zentrale Herausforderung praktischer verteilungsbasierter RL-Algorithmen liegt darin, wie die geschätzten Verteilungen parametrisiert werden, um die wahre kontinuierliche Verteilung möglichst gut zu approximieren. Bisherige verteilungsbasierte RL-Algorithmen parametrisieren entweder die Wahrscheinlichkeitsseite oder die Rückgabewertseite der Verteilungsfunktion, wobei die jeweils andere Seite entweder konstant gehalten wird – wie bei C51, QR-DQN – oder zufällig abgetastet wird – wie bei IQN. In diesem Artikel schlagen wir eine vollständig parametrisierte Quantilfunktion vor, die sowohl die Quantilbruchachse (d. h. die x-Achse) als auch die Wertachse (d. h. die y-Achse) der Verteilung parametrisiert. Unser Algorithmus umfasst ein Bruchvorschlagsnetzwerk, das eine diskrete Menge von Quantilbrüchen generiert, sowie ein Quantilwertnetzwerk, das die entsprechenden Quantilwerte liefert. Beide Netzwerke werden gemeinsam trainiert, um die bestmögliche Approximation der wahren Verteilung zu finden. Experimente an 55 Atari-Spielen zeigen, dass unser Algorithmus bestehende verteilungsbasierte RL-Algorithmen deutlich übertrifft und einen neuen Rekord für nicht-verteilte Agenten im Atari-Lernumfeld aufstellt.