11 天前

CURL:用于强化学习的对比无监督表示

Aravind Srinivas, Michael Laskin, Pieter Abbeel
CURL:用于强化学习的对比无监督表示
摘要

我们提出CURL:用于强化学习的对比无监督表征方法。CURL利用对比学习从原始像素中提取高层次特征,并在所提取的特征基础上实现离策略控制。在DeepMind Control Suite和Atari游戏的复杂任务上,CURL的表现优于以往所有基于像素的方法,无论是基于模型还是无模型的方法,在10万次环境交互步骤的基准测试中,分别实现了1.9倍和1.2倍的性能提升。在DeepMind Control Suite上,CURL是首个基于图像的算法,其样本效率几乎达到了使用状态空间特征方法的水平。相关代码已开源,可通过 https://github.com/MishaLaskin/curl 获取。

CURL:用于强化学习的对比无监督表示 | 最新论文 | HyperAI超神经