HyperAIHyperAI

Command Palette

Search for a command to run...

基于深度强化学习的连续控制

Timothy P. Lillicrap; Jonathan J. Hunt; Alexander Pritzel; Nicolas Heess; Tom Erez; Yuval Tassa; David Silver; Daan Wierstra

摘要

我们将深度Q学习成功的背后理念应用于连续动作域。本文介绍了一种基于确定性策略梯度的无模型演员-评论家算法,该算法能够在连续动作空间中运行。使用相同的學習算法、网络架构和超参数,我们的算法稳健地解决了超过20个模拟物理任务,包括经典问题如倒立摆摆动(cartpole swing-up)、灵巧操作、足式运动和汽车驾驶。我们的算法能够找到性能与完全访问领域动态及其导数的规划算法所发现的策略相媲美的策略。此外,我们还证明了对于许多任务,该算法可以进行端到端学习:直接从原始像素输入中学习策略。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供