16 天前

基于潜在流的强化学习

Wenling Shang, Xiaofei Wang, Aravind Srinivas, Aravind Rajeswaran, Yang Gao, Pieter Abbeel, Michael Laskin
基于潜在流的强化学习
摘要

时间信息对于通过强化学习(Reinforcement Learning, RL)学习有效策略至关重要。然而,当前最先进的RL算法要么假设时间信息作为状态空间的一部分被显式提供,要么在从像素输入学习时,采用帧堆叠(frame-stacking)这一简单启发式方法,以隐式捕捉图像观测中的时间信息。这一做法与当前视频分类架构的主流范式形成鲜明对比——后者通过光流(optical flow)和双流(two-stream)等显式编码时间信息的方法,实现了最先进的性能。受领先视频分类架构的启发,我们提出了面向强化学习的潜在向量时序流(Flow of Latents for Reinforcement Learning, Flare),这是一种在RL中显式编码时间信息的网络架构,其核心思想是利用潜在向量之间的差异来表征时间动态。实验表明,Flare具有以下优势:(i)在基于状态的强化学习任务中,仅依赖位置状态信息即可恢复最优性能,无需显式获取状态速度信息;(ii)在DeepMind控制基准套件(DeepMind Control Suite)中的多个具有挑战性的连续控制任务上,包括四足行走(quadruped walk)、跳跃器跳跃(hopper hop)、手指旋转硬任务(finger turn hard)、摆锤摆动(pendulum swing)和行走者奔跑(walker run),Flare达到了当前最优性能;(iii)作为无模型的基于像素的RL算法,Flare在样本效率方面表现最为出色,在50万步和100万步的基准测试中,分别比先前最优的无模型方法提升了1.9倍和1.5倍;(iv)当与Rainbow DQN结合使用时,Flare在8个具有挑战性的Atari游戏中,于1亿时间步的基准测试中,有5个任务的表现超越了该基线模型,达到了当前最先进的水平。

基于潜在流的强化学习 | 最新论文 | HyperAI超神经