Command Palette
Search for a command to run...
Mittler Schauspieler Kritiker
Mittler Schauspieler Kritiker
Cameron Allen extsuperscript1 extsuperscript* Kavosh Asadi extsuperscript1 extsuperscript* Melrose Roderick extsuperscript1 Abdel-rahman Mohamed extsuperscript2 extsuperscript† George Konidaris extsuperscript1 Michael Littman extsuperscript1
Zusammenfassung
Wir schlagen einen neuen Algorithmus vor, den Mean Actor-Critic (MAC), für das Reinforcement Learning mit diskreten Aktionen und kontinuierlichen Zuständen. MAC ist ein Policy-Gradienten-Algorithmus, der die explizite Darstellung aller Aktionswerte des Agenten verwendet, um den Gradienten der Politik zu schätzen, anstatt nur die tatsächlich ausgeführten Aktionen zu verwenden. Wir beweisen, dass dieser Ansatz im Vergleich zu traditionellen Actor-Critic-Methoden die Varianz in der Schätzung des Policy-Gradients reduziert. Wir präsentieren empirische Ergebnisse in zwei Kontrollbereichen und sechs Atari-Spielen, bei denen MAC mit den besten aktuellen Policy-Suchalgorithmen konkurrieren kann.