2 个月前

基于计数的后继表示探索

Marlos C. Machado; Marc G. Bellemare; Michael Bowling
基于计数的后继表示探索
摘要

在本文中,我们介绍了一种简单的强化学习(RL)探索方法,该方法不仅允许我们在表格情况下开发理论上有根据的算法,还可以扩展到需要函数逼近的场景。我们的方法基于继任者表示(Successor Representation, SR),该表示最初被引入用于通过后续状态的相似性定义状态泛化。在这里,我们展示了在学习过程中,SR 的范数可以作为奖励奖金来激励探索行为。为了更好地理解 SR 范数的这种瞬态行为,我们引入了次随机继任者表示(Substochastic Successor Representation, SSR),并证明它隐式地统计了每个状态(或特征)被观察到的次数。利用这一结果,我们提出了一种算法,其性能与某些理论上样本高效的算法相当。最后,我们将这些思想扩展到深度强化学习算法中,并展示了在低样本复杂度的情况下,该算法在 Atari 2600 游戏中的表现达到了当前最佳水平。

基于计数的后继表示探索 | 最新论文 | HyperAI超神经