HyperAIHyperAI
vor 2 Monaten

Eine distributionelle Perspektive auf das reinforcement learning

Marc G. Bellemare; Will Dabney; Rémi Munos
Eine distributionelle Perspektive auf das reinforcement learning
Abstract

In dieser Arbeit argumentieren wir für die grundlegende Bedeutung der Werteverteilung: die Verteilung des zufälligen Rückgewinns, den ein Reinforcement-Learning-Agent erhält. Dies steht im Gegensatz zum üblichen Ansatz des Reinforcement Learnings, der den Erwartungswert dieses Rückgewinns oder den Wert modelliert. Obwohl es eine etablierte Literatur gibt, die sich mit der Werteverteilung befasst, wurde sie bisher stets zu einem spezifischen Zweck wie dem Implementieren risikobewusster Verhaltensweisen verwendet. Wir beginnen mit theoretischen Ergebnissen sowohl in der Politikbewertungs- als auch in der Kontrollsituation und legen dabei eine signifikante verteilungsbedingte Instabilität in letzterer frei. Anschließend nutzen wir die verteilungsorientierte Perspektive, um einen neuen Algorithmus zu entwerfen, der die Bellman-Gleichung auf das Lernen von approximativen Werteverteilungen anwendet. Wir evaluieren unseren Algorithmus unter Verwendung eines Spielsuiten aus der Arcade Learning Environment. Dabei erzielen wir sowohl standesgemäße Ergebnisse als auch beispielhafte Beweise, die die Bedeutung der Werteverteilung im approximativen Reinforcement Learning unterstreichen. Schließlich kombinieren wir theoretische und empirische Beweise, um die Wege aufzuzeigen, auf denen die Werteverteilung das Lernen im approximativen Setting beeinflusst.