HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von Werten über viele Größenordnungen hinweg

Hado van Hasselt Arthur Guez Matteo Hessel Volodymyr Mnih David Silver

Zusammenfassung

Die meisten Lernalgorithmen sind nicht invariant gegenüber der Skalierung der zu approximierenden Funktion. Wir schlagen vor, die Lernziele adaptive zu normalisieren. Dies ist besonders nützlich im wertbasierten Reinforcement Learning, da die Größenordnung geeigneter Wertapproximationen über die Zeit hinweg ändern kann, wenn wir das Verhaltenspolicy aktualisieren. Unser Hauptantriebsmoment ist die frühere Arbeit zum Lernen von Atari-Spielen, bei denen alle Belohnungen auf einen vorbestimmten Bereich beschnitten wurden. Diese Beschränkung erleichtert das Lernen über viele verschiedene Spiele hinweg mit einem einzigen Lernalgorithmus, kann aber auch zu qualitativ unterschiedlichem Verhalten führen. Durch die Verwendung der adaptiven Normalisierung können wir diese domänen spezifische Heuristik entfernen, ohne die Gesamtleistung zu beeinträchtigen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen von Werten über viele Größenordnungen hinweg | Paper | HyperAI