
摘要
本文旨在提出一种简单且可扩展的强化学习算法,该算法将标准的监督学习方法作为其子程序。我们的目标是设计一种仅使用简单且收敛的极大似然损失函数的算法,同时能够有效利用离策略(off-policy)数据。我们提出的方案称为优势加权回归(Advantage-Weighted Regression, AWR),其核心由两个标准的监督学习步骤构成:第一步是针对价值函数的目标值进行回归;第二步则是对策略的加权目标动作进行回归。该方法简洁通用,适用于连续动作与离散动作场景,且仅需在标准监督学习框架上添加少量代码即可实现。本文为AWR提供了理论依据,并分析了其在结合经验回放(experience replay)中离策略数据时的性质。我们在一系列标准的OpenAI Gym基准任务上对AWR进行了评估,结果表明,其性能可与多种成熟的先进强化学习算法相媲美。尤其值得注意的是,当仅从静态数据集学习而无需额外与环境交互时,AWR在获取更优策略方面显著优于大多数现有离策略算法。此外,我们还将该算法应用于具有高度复杂模拟角色的挑战性连续控制任务中,进一步验证了其有效性与实用性。