HyperAIHyperAI

Command Palette

Search for a command to run...

Vollständig parametrisierte Quantilfunktion für verteilungsbasiertes Verstärkungslernen

Derek Yang Li Zhao Zichuan Lin Tao Qin Jiang Bian Tieyan Liu

Zusammenfassung

Verteilungsbasiertes Verstärkendes Lernen (Distributional Reinforcement Learning, RL) unterscheidet sich vom herkömmlichen RL dadurch, dass es statt des Erwartungswerts der Gesamtrecompensen Verteilungen schätzt und bereits eine state-of-the-art-Leistung bei Atari-Spielen erzielt hat. Die zentrale Herausforderung praktischer verteilungsbasierter RL-Algorithmen liegt darin, wie die geschätzten Verteilungen parametrisiert werden, um die wahre kontinuierliche Verteilung möglichst gut zu approximieren. Bisherige verteilungsbasierte RL-Algorithmen parametrisieren entweder die Wahrscheinlichkeitsseite oder die Rückgabewertseite der Verteilungsfunktion, wobei die jeweils andere Seite entweder konstant gehalten wird – wie bei C51, QR-DQN – oder zufällig abgetastet wird – wie bei IQN. In diesem Artikel schlagen wir eine vollständig parametrisierte Quantilfunktion vor, die sowohl die Quantilbruchachse (d. h. die x-Achse) als auch die Wertachse (d. h. die y-Achse) der Verteilung parametrisiert. Unser Algorithmus umfasst ein Bruchvorschlagsnetzwerk, das eine diskrete Menge von Quantilbrüchen generiert, sowie ein Quantilwertnetzwerk, das die entsprechenden Quantilwerte liefert. Beide Netzwerke werden gemeinsam trainiert, um die bestmögliche Approximation der wahren Verteilung zu finden. Experimente an 55 Atari-Spielen zeigen, dass unser Algorithmus bestehende verteilungsbasierte RL-Algorithmen deutlich übertrifft und einen neuen Rekord für nicht-verteilte Agenten im Atari-Lernumfeld aufstellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp