
摘要
我们探讨了进化策略(Evolution Strategies, ES)这一类黑盒优化算法作为基于马尔可夫决策过程(MDP)的强化学习(RL)技术(如Q学习和策略梯度)的替代方案。在MuJoCo和Atari上的实验表明,ES是一种可行的解决方案策略,其性能随着可用CPU数量的增加而显著提升:通过采用一种基于公共随机数的新颖通信策略,我们的ES实现仅需传输标量数据,从而可以扩展到超过一千个并行工作节点。这使得我们在10分钟内解决了3D人体行走问题,并在经过一小时训练后,在大多数Atari游戏中取得了具有竞争力的结果。此外,我们还强调了ES作为黑盒优化技术的几个优势:它对动作频率和延迟奖励具有不变性,能够容忍极长的时间范围,并且不需要时间折现或价值函数近似。