
摘要
我们提出了一种简单且通用的数据增强技术,可直接应用于标准的无模型强化学习算法,使其能够直接从像素输入中实现鲁棒学习,而无需依赖辅助损失函数或预训练过程。该方法利用计算机视觉任务中常见的输入扰动来正则化价值函数,从而提升学习稳定性。现有的无模型方法(如软演员-评论家算法,SAC)在直接从图像像素训练深层网络时表现不佳。然而,通过引入我们提出的增强方法,SAC的性能得到显著提升,能够在DeepMind控制基准(DeepMind Control Suite)上达到当前最先进的水平,超越了多种基于模型的方法(如Dreamer、PlaNet和SLAC)以及近期提出的对比学习方法(CURL)。该方法可与任意无模型强化学习算法结合使用,仅需进行少量代码修改。相关实现可访问:https://sites.google.com/view/data-regularized-q。