HyperAIHyperAI

Command Palette

Search for a command to run...

Implizite Quantil-Netzwerke für distributionelles Reinforcement Learning

Will Dabney Georg Ostrovski David Silver Rémi Munos

Zusammenfassung

In dieser Arbeit bauen wir auf jüngste Fortschritte im verteilungsorientierten Reinforcement Learning auf, um eine allgemein anwendbare, flexible und standesgemäß verteilungsorientierte Variante von DQN zu entwickeln. Dies erreichen wir durch die Verwendung von Quantilsregression zur Approximation der vollständigen Quantilfunktion für die Verteilung des Zustand-Aktions-Rückgewinns (state-action return distribution). Durch die Reparametrisierung einer Verteilung über dem Stichprobenraum ergibt sich eine implizit definierte Rückgewinnverteilung und entstehen eine große Klasse risikosensibler Strategien. Wir zeigen verbesserte Leistungen bei den 57 Atari 2600 Spielen in der Arcade Learning Environment (ALE) und nutzen die implizit definierten Verteilungen unseres Algorithmus, um die Auswirkungen risikosensibler Strategien in Atari-Spielen zu untersuchen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp