vor 2 Monaten
Mittler Schauspieler Kritiker
Cameron Allen; Kavosh Asadi; Melrose Roderick; Abdel-rahman Mohamed; George Konidaris; Michael Littman

Abstract
Wir schlagen einen neuen Algorithmus vor, den Mean Actor-Critic (MAC), für das Reinforcement Learning mit diskreten Aktionen und kontinuierlichen Zuständen. MAC ist ein Policy-Gradienten-Algorithmus, der die explizite Darstellung aller Aktionswerte des Agenten verwendet, um den Gradienten der Politik zu schätzen, anstatt nur die tatsächlich ausgeführten Aktionen zu verwenden. Wir beweisen, dass dieser Ansatz im Vergleich zu traditionellen Actor-Critic-Methoden die Varianz in der Schätzung des Policy-Gradients reduziert. Wir präsentieren empirische Ergebnisse in zwei Kontrollbereichen und sechs Atari-Spielen, bei denen MAC mit den besten aktuellen Policy-Suchalgorithmen konkurrieren kann.