Command Palette
Search for a command to run...
深度强化学习
摘要
一句话总结
本研究通过构建近端策略优化(PPO)和深度确定性策略梯度(DDPG)的并行化版本,对连续控制任务中的深度强化学习与进化方法进行比较,最终通过对前沿技术的全面对比证明,两种范式均无法在所有情况下稳定优于对方。
核心贡献
- 针对连续控制任务,构建近端策略优化与深度确定性策略梯度算法的并行化实现。
- 在连续控制领域内,对前沿进化策略与深度强化学习方法进行全面对比。
- 通过实验结果证明,这两类算法家族均无法在所有场景下稳定优于对方。
引言
解决连续控制问题需要稳健的优化策略,因此理解深度强化学习与进化策略之间的优劣对比至关重要。以往的对比研究大多局限于简单的离散环境,或缺乏对两个领域现代算法的全面评估。为弥补这一差距,本文实现了PPO和DDPG等前沿深度强化学习方法的并行化版本,并与当代进化技术进行了全面的基准测试。研究结果表明,不存在绝对的优势方,算法性能高度依赖于具体的控制任务与实现细节。
数据集
- 数据集构成与来源:本文未构建或发布新数据集。实验主要围绕Pendulum控制环境展开,其他任务均复用相同的基线配置。
- 各子集关键细节:本研究评估了五种强化学习算法:CA3C、D3PG、P3O、NES和CMAES。每种算法均对应特定的超参数搜索范围及经验验证设置,而非预定义的数据子集。
- 数据使用与处理:作者未采用传统的训练集划分或混合比例,而是聚焦于算法配置与鲁棒性测试。CA3C、D3PG和P3O均对策略网络与价值网络使用Adam优化器。作者针对初始学习率在 10−4 至 10−1 之间进行定向网格搜索,为CA3C和D3PG选定 10−4,为P3O选定 10−3。NES需联合调整方差与学习率,搜索范围分别为 10−2 至 100 和 10−3 至 100,两项参数均设为 0.1 时表现最佳。CMAES的标准差搜索范围为 10−2 至 101,取值为 1 时效果最优。
- 其他处理细节:原文未提及数据裁剪、元数据构建或子集过滤。受计算资源限制,作者仅在Pendulum任务中对每种算法的一至两个关键超参数进行详尽的网格搜索。其余参数均通过经验调整或保留为包默认值,此举亦用于验证算法对超参数变化的鲁棒性。
方法
作者采用统一框架评估多种强化学习与进化算法,其核心目标是优化由 θ 参数化的策略 π,以最大化马尔可夫决策过程中的期望折扣回报。策略 π 可为随机策略或确定性策略,在大多数情况下,θ 对应神经网络的权重。对于Actor-Critic (CA3C) 和并行化近端策略优化 (P3O) 等深度强化学习方法,网络架构为预定义结构,θ 仅表示权重。相比之下,对于协方差矩阵适应进化策略 (CMAES) 与自然进化策略 (NES) 等神经进化方法,θ 同样指代固定拓扑结构下的网络权重。然而在增强拓扑结构的神经进化 (NEAT) 中,θ 同时包含网络结构与权重,从而支持连接方式与参数值的共同演化。
在深度强化学习设定中,策略通常在连续动作空间中被参数化为多元高斯分布,均值为 μ(s,θ),协方差为 Σ(s,θ)。为兼顾稳定性与简洁性,协方差常设为单位矩阵 Σ(s,θ)≡I,这实际上移除了熵正则化项。价值函数 vπ(s) 与动作价值函数 qπ(s,a) 通过神经网络进行近似,并应用策略梯度定理计算目标函数 J(θ)=vπ(s0) 的梯度,进而用于更新策略参数。
Actor-Critic (CA3C) 采用包含Actor与Critic的双网络架构。Actor输出策略分布,Critic估计状态价值函数。策略更新遵循策略梯度定理,利用即时奖励与价值函数估计值之差导出的优势函数。在连续控制任务中,Actor策略通常建模为高斯分布,Critic则通过半梯度时序差分学习进行训练。为提升数据效率并降低方差,该方法引入了异步并行机制,其中多个Agent独立与环境交互,并以非中心化方式贡献梯度计算。
并行化近端策略优化 (P3O) 在PPO框架基础上引入了并行化设计。P3O使用裁剪目标函数 LCLIP(θ)=E[min(rt(θ)At,clip(rt(θ),1−ϵ,1+ϵ)At)],该函数限制策略更新幅度,防止其偏离上一策略过远。优势函数通过截断广义优势估计计算,将轨迹上的时序差分误差与折扣因子 γ 及参数 λ 相结合。P3O为每个Worker维护独立的经验回放缓冲区,并在每次迭代中执行单次批量更新以提升稳定性。与可能在同步过程中丢失梯度的分布式PPO (DPPO) 不同,P3O采用带有共享锁的简化同步梯度更新机制,确保所有梯度均被应用。价值函数通过半梯度TD学习进行更新。
分布式深度确定性策略梯度 (D3PG) 将DDPG算法适配于分布式训练场景。应用确定性策略梯度定理计算策略参数的梯度,Actor网络输出动作,Critic网络估计动作价值函数。为稳定训练过程,D3PG采用了经验回放与目标网络机制。在分布式设定下,多个Worker与环境交互并将状态转移数据贡献至共享的回放缓冲区。在每次更新步骤中,Worker从缓冲区采样批次数据,利用DDPG算法计算梯度,并同步更新参数。目标网络同样在Worker间共享,以确保学习过程的一致性。
CMAES作为一种基于种群的优化方法运行,每一代由从多元高斯分布 θi∼μ+σN(0,Σ) 中采样的候选参数向量 θi 组成。均值 μ、步长 σ 与协方差矩阵 Σ 根据候选参数的评估结果进行更新,从而引导搜索向更优解演进。另一方面,NES将种群分布 pϕ(θ) 建模为均值为 ϕ、协方差为固定值 σ2I 的高斯分布。更新规则由期望适应度的梯度推导得出,生成的策略更新会融入按适应度值缩放的噪声扰动。NEAT通过遗传操作同时演化网络结构与权重,利用创新编号与历史标记高效管理拓扑结构的演进。
实验
本研究在多样化的连续控制任务上系统对比了前沿的深度强化学习与进化策略算法,以验证其学习效率、稳定性及架构可扩展性。实验结果表明,算法性能高度依赖于具体任务。进化方法在精细探索方面表现优异且更具稳定性,而深度强化学习方法能更好地处理复杂动态,并在网络规模扩大时展现出更有效的扩展能力。最终,研究结果凸显了两种范式的互补特性,表明最优算法的选择应基于具体任务需求,而非寻求一种通用的绝对优势方案。
作者在连续控制任务中对比了深度强化学习与进化策略,评估了它们在不同环境下的性能。结果表明,深度强化学习方法在数据效率与学习速度上通常优于进化方法,但在需要精细探索的任务中,进化方法展现出更好的稳定性与探索能力。两种方法的性能均会因任务复杂度与网络规模的不同而产生显著差异。在大多数任务中,深度强化学习方法比进化方法具有更高的数据效率与更快的学习速度。进化方法表现出更高的稳定性,且在探索方面更具优势,尤其是在需要精细导航的任务中。深度强化学习方法的性能随网络规模增大而提升,而进化方法的性能随网络复杂度增加呈现出不一致的扩展表现。
作者使用一组基准环境,在连续控制任务中对深度强化学习与进化策略进行了对比。结果表明,在较简单的任务中,深度强化学习方法在数据效率与学习速度上通常优于进化方法;而在需要精细导航的任务中,进化方法则表现出更好的稳定性与探索能力。两种方法的性能均会因任务复杂度不同而产生显著差异。深度强化学习方法在处理丰富动态方面表现更佳,而进化方法在探索密集型场景中展现出更优的性能。在简单任务中,深度强化学习方法相比进化方法实现了更快的学习与更高的数据效率。进化方法展现出卓越的稳定性与探索能力,尤其在需要精细导航的任务中。深度强化学习方法在更大网络规模下具有更好的扩展性,而进化方法的性能随复杂度增加呈现出不一致的波动。
本研究在连续控制基准环境中对比了深度强化学习与进化策略,以验证其在不同任务复杂度与网络规模下的性能表现。实验表明,深度强化学习提供了更优越的数据效率与更快的学习速度,这在简单任务及搭配更大网络时尤为明显。相反,进化策略提供了更高的稳定性与更有效的探索能力,使其更适用于需要精细导航的复杂场景。总体而言,研究结果表明方法的选择应与具体任务需求保持一致,因为每种方法在不同的计算与环境背景下均能发挥各自的优势。