2 个月前
探索:基于计数的深度强化学习探索研究
Haoran Tang; Rein Houthooft; Davis Foote; Adam Stooke; Xi Chen; Yan Duan; John Schulman; Filip De Turck; Pieter Abbeel

摘要
基于计数的探索算法在与表格强化学习(RL)方法结合用于解决小型离散马尔可夫决策过程(MDPs)时,已知其性能接近最优。通常认为,由于大多数状态只会出现一次,基于计数的方法无法应用于高维状态空间。最近的深度强化学习探索策略通过复杂的启发式方法能够处理高维连续状态空间,这些方法通常依赖于面对不确定性时的乐观主义或内在动机。在这项工作中,我们描述了一个令人惊讶的发现:经典基于计数方法的一个简单泛化能够在各种高维和/或连续的深度强化学习基准测试中达到接近最先进水平的性能。状态被映射到哈希码,这使得可以通过哈希表来统计它们的发生次数。然后根据经典的基于计数的探索理论计算奖励奖金。我们发现简单的哈希函数在许多具有挑战性的任务上能够取得出乎意料的好结果。此外,我们还展示了领域相关的学习型哈希码可以进一步提高这些结果。详细分析揭示了良好哈希函数的重要方面:1) 具有适当的粒度;2) 编码与解决MDP相关的信息。这种探索策略在连续控制任务和Atari 2600游戏中均达到了接近最先进水平的性能,因此为需要大量探索的MDP问题提供了一个简单而强大的基线解决方案。