HyperAIHyperAI

Command Palette

Search for a command to run...

Exploration basierend auf Zähldaten mit neuronalen Dichtemodellen

Georg Ostrovski; Marc G. Bellemare; Aaron van den Oord; Remi Munos

Zusammenfassung

Bellemare et al. (2016) stellten den Begriff des Pseudo-Zählers vor, der aus einem Dichtemodell abgeleitet wird, um die auf Zählen basierende Exploration auf nicht-tabellarisches Reinforcement Learning zu verallgemeinern. Dieser Pseudo-Zähler wurde verwendet, um einen Explorationsbonus für einen DQN-Agenten zu generieren und in Kombination mit einem gemischten Monte-Carlo-Update war er ausreichend, um den Stand der Technik im Atari 2600-Spiel "Montezumas Rache" zu erreichen. Wir betrachten zwei Fragen, die durch ihre Arbeit offen geblieben sind: Erstens, wie wichtig ist die Qualität des Dichtemodells für die Exploration? Zweitens, welche Rolle spielt das Monte-Carlo-Update bei der Exploration? Wir beantworten die erste Frage, indem wir die Verwendung von PixelCNN, einem fortgeschrittenen neuronalen Dichtemodell für Bilder, zur Bereitstellung eines Pseudo-Zählers demonstrieren. Insbesondere untersuchen wir die intrinsischen Schwierigkeiten bei der Anpassung des Ansatzes von Bellemare et al., wenn Annahmen über das Modell verletzt werden. Das Ergebnis ist ein praktischerer und allgemeinerer Algorithmus, der keine spezielle Ausrüstung erfordert. Wir kombinieren PixelCNN-Pseudo-Zähler mit verschiedenen Agentenarchitekturen, um den Stand der Technik in mehreren schwierigen Atari-Spielen erheblich zu verbessern. Eine überraschende Erkenntnis ist, dass das gemischte Monte-Carlo-Update ein mächtiger Förderer der Exploration in äußerst sparsamen Szenarien ist, einschließlich "Montezumas Rache".


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp