2 个月前

Go-Explore:一种解决困难探索问题的新方法

Adrien Ecoffet; Joost Huizinga; Joel Lehman; Kenneth O. Stanley; Jeff Clune
Go-Explore:一种解决困难探索问题的新方法
摘要

强化学习中的一个重大挑战是智能探索,尤其是在奖励稀疏或具有误导性的情况下。两款Atari游戏——蒙特祖玛的复仇(Montezuma's Revenge)和陷阱(Pitfall)——作为此类困难探索领域的基准测试。在这些游戏中,当前的强化学习算法表现不佳,即使那些采用内在动机的方法也是如此,而内在动机是提高在困难探索领域性能的主要方法。为了解决这一不足,我们提出了一种新的算法——Go-Explore。该算法利用了以下原则:(1) 记忆已访问的状态;(2) 首先返回到一个有潜力的状态(无需探索),然后从该状态开始探索;(3) 通过任何可用手段解决模拟环境(包括引入确定性),然后通过模仿学习增强鲁棒性。这些原则的综合效果是在困难探索问题上实现了显著的性能提升。在蒙特祖玛的复仇中,Go-Explore平均得分超过43,000分,几乎是之前最先进水平的4倍。当结合人类提供的领域知识时,Go-Explore在蒙特祖玛的复仇上的平均得分超过650,000分。其最高性能接近1800万分,超过了人类的世界纪录,达到了“超人”性能的严格定义。在陷阱游戏中,结合领域知识的Go-Explore是首个得分高于零的算法。其平均得分接近60,000分,超过了专家级人类的表现。由于Go-Explore能够自动且低成本地生成高性能演示,因此它也优于那些由人类提供解决方案演示的模仿学习研究。Go-Explore开辟了许多新的研究方向,旨在改进该算法并将其见解融入当前的强化学习算法中。它还可能推动许多领域的进展,特别是在训练过程中利用模拟器的问题(例如机器人技术)。

Go-Explore:一种解决困难探索问题的新方法 | 最新论文 | HyperAI超神经