
摘要
在基于价值的强化学习方法中,如深度Q学习,函数逼近误差已知会导致价值估计过高和次优策略。我们证明了这一问题在演员-评论家(actor-critic)框架中仍然存在,并提出了新的机制以最小化其对演员和评论家的影响。我们的算法基于双Q学习(Double Q-learning),通过取一对评论家之间的最小值来限制过估计。我们探讨了目标网络与过估计偏差之间的联系,并建议延迟策略更新以减少每次更新的误差并进一步提升性能。我们在OpenAI Gym任务套件上评估了我们的方法,在所有测试环境中均超越了现有最先进水平。