HyperAIHyperAI

Command Palette

Search for a command to run...

Die Vereinigung von zählbasierten Explorationsmethoden und intrinsischer Motivation

Marc G. Bellemare; Sriram Srinivasan; Georg Ostrovski; Tom Schaul; David Saxton; Remi Munos

Zusammenfassung

Wir betrachten die Unsicherheit eines Agenten über seine Umgebung und das Problem der Verallgemeinerung dieser Unsicherheit auf Beobachtungen. Insbesondere konzentrieren wir uns auf das Problem der Exploration im nicht-tabellarischen Reinforcement Learning. Inspiriert von der Literatur zur intrinsischen Motivation verwenden wir Dichtemodellierungen, um Unsicherheit zu messen, und schlagen einen neuen Algorithmus vor, um aus einem beliebigen Dichtemodell einen Pseudo-Zähler abzuleiten. Diese Technik ermöglicht es uns, zählbasierte Explorationsalgorithmen auf den nicht-tabellarischen Fall zu verallgemeinern. Wir wenden unsere Ideen auf Atari 2600-Spiele an und berechnen sinnvolle Pseudo-Zähler aus rohen Pixeln. Wir transformieren diese Pseudo-Zähler in intrinsische Belohnungen und erzielen erheblich verbesserte Exploration in mehreren schwierigen Spielen, darunter dem berüchtigt schweren Montezuma's Revenge (蒙特祖玛的复仇). 请注意,"Montezuma's Revenge" 在德语中通常直接使用英文名称,因此这里没有翻译成中文。如果需要进一步调整,请告知。


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Die Vereinigung von zählbasierten Explorationsmethoden und intrinsischer Motivation | Paper | HyperAI