Command Palette
Search for a command to run...
Muesli: Kombination von Verbesserungen in der Politik-Optimierung
Muesli: Kombination von Verbesserungen in der Politik-Optimierung
Matteo Hessel Ivo Danihelka Fabio Viola Arthur Guez Simon Schmitt Laurent Sifre Theophane Weber David Silver Hado van Hasselt
Zusammenfassung
Wir schlagen eine neuartige Politikaktualisierung vor, die die regularisierte Politikoptimierung mit dem Modelllernen als zusätzliche Verlustfunktion kombiniert. Die Aktualisierung (im Folgenden Muesli genannt) erreicht auf Atari die state-of-the-art-Leistung von MuZero. Insbesondere gelingt dies ohne den Einsatz tiefer Suchverfahren: Muesli agiert direkt über ein Politiknetzwerk und weist eine Rechenzeit vergleichbar mit modellfreien Baselines auf. Die Ergebnisse auf Atari werden durch umfangreiche Ablationsstudien sowie zusätzliche Ergebnisse im Bereich kontinuierlicher Steuerung und 9×9 Go ergänzt.