Die Vereinigung von zählbasierten Explorationsmethoden und intrinsischer Motivation

Wir betrachten die Unsicherheit eines Agenten über seine Umgebung und das Problem der Verallgemeinerung dieser Unsicherheit auf Beobachtungen. Insbesondere konzentrieren wir uns auf das Problem der Exploration im nicht-tabellarischen Reinforcement Learning. Inspiriert von der Literatur zur intrinsischen Motivation verwenden wir Dichtemodellierungen, um Unsicherheit zu messen, und schlagen einen neuen Algorithmus vor, um aus einem beliebigen Dichtemodell einen Pseudo-Zähler abzuleiten. Diese Technik ermöglicht es uns, zählbasierte Explorationsalgorithmen auf den nicht-tabellarischen Fall zu verallgemeinern. Wir wenden unsere Ideen auf Atari 2600-Spiele an und berechnen sinnvolle Pseudo-Zähler aus rohen Pixeln. Wir transformieren diese Pseudo-Zähler in intrinsische Belohnungen und erzielen erheblich verbesserte Exploration in mehreren schwierigen Spielen, darunter dem berüchtigt schweren Montezuma's Revenge (蒙特祖玛的复仇). 请注意,"Montezuma's Revenge" 在德语中通常直接使用英文名称,因此这里没有翻译成中文。如果需要进一步调整,请告知。