Verteilungs-basiertes Reinforcement Learning mit Quantilsregression

Im Bereich des Reinforcement Learnings interagiert ein Agent mit der Umgebung, indem er Aktionen ausführt und den darauffolgenden Zustand sowie die Belohnung beobachtet. Wenn diese Zustandsübergänge, Belohnungen und Aktionen stochastisch abgetastet werden, können sie alle Zufälligkeit im beobachteten langfristigen Ertrag verursachen. Traditionell durchschnitteln Reinforcement-Learning-Algorithmen diese Zufälligkeit, um die Wertfunktion zu schätzen. In dieser Arbeit bauen wir auf jüngste Arbeiten auf, die einen distributionsbasierten Ansatz zum Reinforcement Learning befürworten, bei dem die Verteilung über den Ertrag explizit modelliert wird, anstatt nur den Mittelwert zu schätzen. Das heißt, wir untersuchen Methoden zur Lernung der Wertverteilung anstelle der Wertfunktion. Wir präsentieren Ergebnisse, die eine Reihe von Lücken zwischen den theoretischen und algorithmischen Ergebnissen schließen, die von Bellemare, Dabney und Munos (2017) gegeben wurden. Erstens erweitern wir bestehende Ergebnisse auf den Bereich der approximativen Verteilungen. Zweitens stellen wir einen neuen distributionsbasierten Reinforcement-Learning-Algorithmus vor, der mit unserer theoretischen Formulierung konsistent ist. Schließlich evaluieren wir diesen neuen Algorithmus anhand der Atari 2600 Spiele und beobachten, dass er viele der jüngsten Verbesserungen des DQN signifikant übertrifft, einschließlich des verwandten distributionsbasierten Algorithmus C51.