Exploration basierend auf Zähldaten mit neuronalen Dichtemodellen

Bellemare et al. (2016) stellten den Begriff des Pseudo-Zählers vor, der aus einem Dichtemodell abgeleitet wird, um die auf Zählen basierende Exploration auf nicht-tabellarisches Reinforcement Learning zu verallgemeinern. Dieser Pseudo-Zähler wurde verwendet, um einen Explorationsbonus für einen DQN-Agenten zu generieren und in Kombination mit einem gemischten Monte-Carlo-Update war er ausreichend, um den Stand der Technik im Atari 2600-Spiel "Montezumas Rache" zu erreichen. Wir betrachten zwei Fragen, die durch ihre Arbeit offen geblieben sind: Erstens, wie wichtig ist die Qualität des Dichtemodells für die Exploration? Zweitens, welche Rolle spielt das Monte-Carlo-Update bei der Exploration? Wir beantworten die erste Frage, indem wir die Verwendung von PixelCNN, einem fortgeschrittenen neuronalen Dichtemodell für Bilder, zur Bereitstellung eines Pseudo-Zählers demonstrieren. Insbesondere untersuchen wir die intrinsischen Schwierigkeiten bei der Anpassung des Ansatzes von Bellemare et al., wenn Annahmen über das Modell verletzt werden. Das Ergebnis ist ein praktischerer und allgemeinerer Algorithmus, der keine spezielle Ausrüstung erfordert. Wir kombinieren PixelCNN-Pseudo-Zähler mit verschiedenen Agentenarchitekturen, um den Stand der Technik in mehreren schwierigen Atari-Spielen erheblich zu verbessern. Eine überraschende Erkenntnis ist, dass das gemischte Monte-Carlo-Update ein mächtiger Förderer der Exploration in äußerst sparsamen Szenarien ist, einschließlich "Montezumas Rache".