HyperAIHyperAI

Command Palette

Search for a command to run...

解决演员-评论家方法中的函数逼近误差

Scott Fujimoto Herke van Hoof David Meger

摘要

在基于价值的强化学习方法中,如深度Q学习,函数逼近误差已知会导致价值估计过高和次优策略。我们证明了这一问题在演员-评论家(actor-critic)框架中仍然存在,并提出了新的机制以最小化其对演员和评论家的影响。我们的算法基于双Q学习(Double Q-learning),通过取一对评论家之间的最小值来限制过估计。我们探讨了目标网络与过估计偏差之间的联系,并建议延迟策略更新以减少每次更新的误差并进一步提升性能。我们在OpenAI Gym任务套件上评估了我们的方法,在所有测试环境中均超越了现有最先进水平。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供