2 个月前
GRI:通用强化模仿及其在基于视觉的自动驾驶中的应用
Raphael Chekroun; Marin Toromanoff; Sascha Hornauer; Fabien Moutarde

摘要
深度强化学习(DRL)已被证明在多个复杂的决策应用中有效,例如自动驾驶和机器人技术。然而,DRL 以其高样本复杂性和缺乏稳定性而著称。先验知识,如专家演示,虽然经常可用,但难以利用来缓解这些问题。本文提出了一种新的方法——通用强化模仿(GRI),该方法结合了探索和专家数据的优势,并且可以轻松地应用于任何离线策略的强化学习算法上。我们做出一个简化假设:专家演示可以被视为完美数据,其底层策略获得恒定的高奖励。基于这一假设,GRI 引入了离线演示代理的概念。该代理发送的专家数据与来自在线强化学习探索代理的经验同时处理且无法区分。我们展示了我们的方法在基于视觉的城市环境中自动驾驶方面取得了显著改进。此外,我们在不同离线策略强化学习算法上对 Mujoco 连续控制任务进行了 GRI 方法的有效性验证。我们的方法在 CARLA 排行榜上排名第一,并且比之前的最先进方法 World on Rails 提升了 17% 的性能。