7 个月前

Marlos C. Machado Marc G. Bellemare Michael Bowling

摘要

在本文中，我们介绍了一种简单的强化学习（RL）探索方法，该方法不仅允许我们在表格情况下开发理论上有根据的算法，还可以扩展到需要函数逼近的场景。我们的方法基于继任者表示（Successor Representation, SR），该表示最初被引入用于通过后续状态的相似性定义状态泛化。在这里，我们展示了在学习过程中，SR 的范数可以作为奖励奖金来激励探索行为。为了更好地理解 SR 范数的这种瞬态行为，我们引入了次随机继任者表示（Substochastic Successor Representation, SSR），并证明它隐式地统计了每个状态（或特征）被观察到的次数。利用这一结果，我们提出了一种算法，其性能与某些理论上样本高效的算法相当。最后，我们将这些思想扩展到深度强化学习算法中，并展示了在低样本复杂度的情况下，该算法在 Atari 2600 游戏中的表现达到了当前最佳水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

Marlos C. Machado Marc G. Bellemare Michael Bowling

摘要

在本文中，我们介绍了一种简单的强化学习（RL）探索方法，该方法不仅允许我们在表格情况下开发理论上有根据的算法，还可以扩展到需要函数逼近的场景。我们的方法基于继任者表示（Successor Representation, SR），该表示最初被引入用于通过后续状态的相似性定义状态泛化。在这里，我们展示了在学习过程中，SR 的范数可以作为奖励奖金来激励探索行为。为了更好地理解 SR 范数的这种瞬态行为，我们引入了次随机继任者表示（Substochastic Successor Representation, SSR），并证明它隐式地统计了每个状态（或特征）被观察到的次数。利用这一结果，我们提出了一种算法，其性能与某些理论上样本高效的算法相当。最后，我们将这些思想扩展到深度强化学习算法中，并展示了在低样本复杂度的情况下，该算法在 Atari 2600 游戏中的表现达到了当前最佳水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供