HyperAIHyperAI

Command Palette

Search for a command to run...

Erkundung durch Zufallsnetzdistillation

Yuri Burda* OpenAI Harrison Edwards* OpenAI Amos Storkey Univ. of Edinburgh Oleg Klimov OpenAI

Zusammenfassung

Wir stellen eine Entdeckungsbonus-Methode für tiefes Reinforcement Learning vor, die einfach zu implementieren ist und nur minimale zusätzliche Rechenleistung erfordert. Der Bonus basiert auf dem Fehler eines neuronalen Netzes, das Merkmale der Beobachtungen vorhersagt, die von einem fest definierten, zufällig initialisierten neuronalen Netzwerk bereitgestellt werden. Darüber hinaus führen wir eine Methode ein, um intrinsische und extrinsische Belohnungen flexibel zu kombinieren. Wir stellen fest, dass der Zufallsnetz-Destillations- (Random Network Distillation, RND) Bonus in Kombination mit dieser erhöhten Flexibilität erhebliche Fortschritte bei mehreren schwierigen Entdeckungsspielen des Atari-Katalogs ermöglicht. Insbesondere erreichen wir den aktuellen Stand der Technik in Montezumas Rache, einem Spiel, das für Methoden des tiefen Reinforcement Learnings berühmt für seine Schwierigkeit ist. Nach bestem Wissen und Gewissen ist dies die erste Methode, die bessere als durchschnittliche menschliche Leistungen in diesem Spiel ohne Verwendung von Demonstrationsdaten oder Zugriff auf den zugrundeliegenden Spielzustand erzielt und gelegentlich das erste Level abschließt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp