vor 2 Monaten

Erkundung durch Zufallsnetzdistillation

Yuri Burda; Harrison Edwards; Amos Storkey; Oleg Klimov

Abstract

Wir stellen eine Entdeckungsbonus-Methode für tiefes Reinforcement Learning vor, die einfach zu implementieren ist und nur minimale zusätzliche Rechenleistung erfordert. Der Bonus basiert auf dem Fehler eines neuronalen Netzes, das Merkmale der Beobachtungen vorhersagt, die von einem fest definierten, zufällig initialisierten neuronalen Netzwerk bereitgestellt werden. Darüber hinaus führen wir eine Methode ein, um intrinsische und extrinsische Belohnungen flexibel zu kombinieren. Wir stellen fest, dass der Zufallsnetz-Destillations- (Random Network Distillation, RND) Bonus in Kombination mit dieser erhöhten Flexibilität erhebliche Fortschritte bei mehreren schwierigen Entdeckungsspielen des Atari-Katalogs ermöglicht. Insbesondere erreichen wir den aktuellen Stand der Technik in Montezumas Rache, einem Spiel, das für Methoden des tiefen Reinforcement Learnings berühmt für seine Schwierigkeit ist. Nach bestem Wissen und Gewissen ist dies die erste Methode, die bessere als durchschnittliche menschliche Leistungen in diesem Spiel ohne Verwendung von Demonstrationsdaten oder Zugriff auf den zugrundeliegenden Spielzustand erzielt und gelegentlich das erste Level abschließt.