摘要

我们将深度Q学习成功的背后理念应用于连续动作域。本文介绍了一种基于确定性策略梯度的无模型演员-评论家算法，该算法能够在连续动作空间中运行。使用相同的學習算法、网络架构和超参数，我们的算法稳健地解决了超过20个模拟物理任务，包括经典问题如倒立摆摆动（cartpole swing-up）、灵巧操作、足式运动和汽车驾驶。我们的算法能够找到性能与完全访问领域动态及其导数的规划算法所发现的策略相媲美的策略。此外，我们还证明了对于许多任务，该算法可以进行端到端学习：直接从原始像素输入中学习策略。

源 PDF