Zusammenfassung

Wir schlagen eine neuartige Politikaktualisierung vor, die die regularisierte Politikoptimierung mit dem Modelllernen als zusätzliche Verlustfunktion kombiniert. Die Aktualisierung (im Folgenden Muesli genannt) erreicht auf Atari die state-of-the-art-Leistung von MuZero. Insbesondere gelingt dies ohne den Einsatz tiefer Suchverfahren: Muesli agiert direkt über ein Politiknetzwerk und weist eine Rechenzeit vergleichbar mit modellfreien Baselines auf. Die Ergebnisse auf Atari werden durch umfangreiche Ablationsstudien sowie zusätzliche Ergebnisse im Bereich kontinuierlicher Steuerung und 9×9 Go ergänzt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Matteo Hessel Ivo Danihelka Fabio Viola Arthur Guez Simon Schmitt Laurent Sifre Theophane Weber David Silver Hado van Hasselt

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Muesli: Kombination von Verbesserungen in der Politik-Optimierung | Paper | HyperAI

Command Palette

Muesli: Kombination von Verbesserungen in der Politik-Optimierung

Matteo Hessel Ivo Danihelka Fabio Viola Arthur Guez Simon Schmitt Laurent Sifre Theophane Weber David Silver Hado van Hasselt

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Muesli: Kombination von Verbesserungen in der Politik-Optimierung

Matteo Hessel Ivo Danihelka Fabio Viola Arthur Guez Simon Schmitt Laurent Sifre Theophane Weber David Silver Hado van Hasselt

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Muesli: Kombination von Verbesserungen in der Politik-Optimierung

Matteo Hessel Ivo Danihelka Fabio Viola Arthur Guez Simon Schmitt Laurent Sifre Theophane Weber David Silver Hado van Hasselt

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters