vor 2 Monaten

Lernen von Werten über viele Größenordnungen hinweg

Hado van Hasselt; Arthur Guez; Matteo Hessel; Volodymyr Mnih; David Silver

Abstract

Die meisten Lernalgorithmen sind nicht invariant gegenüber der Skalierung der zu approximierenden Funktion. Wir schlagen vor, die Lernziele adaptive zu normalisieren. Dies ist besonders nützlich im wertbasierten Reinforcement Learning, da die Größenordnung geeigneter Wertapproximationen über die Zeit hinweg ändern kann, wenn wir das Verhaltenspolicy aktualisieren. Unser Hauptantriebsmoment ist die frühere Arbeit zum Lernen von Atari-Spielen, bei denen alle Belohnungen auf einen vorbestimmten Bereich beschnitten wurden. Diese Beschränkung erleichtert das Lernen über viele verschiedene Spiele hinweg mit einem einzigen Lernalgorithmus, kann aber auch zu qualitativ unterschiedlichem Verhalten führen. Durch die Verwendung der adaptiven Normalisierung können wir diese domänen spezifische Heuristik entfernen, ohne die Gesamtleistung zu beeinträchtigen.