近端策略优化(Proximal Policy Optimization,简称 PPO)是强化学习领域的一种算法,用于训练计算机代理的决策功能来完成困难的任务。 PPO 由 John Schulman 于 2017 年开发,并已成为美国人工智能公司 OpenAI 的默认强化学习算法。 2018 年,PPO 取得了各种各样的成功,例如控制机械臂、在 Dota 2 中击败职业玩家以及在 Atari 游戏中表现出色。许多专家称 PPO 为最先进的技术,因为它在性能和理解之间能够取得较好的平衡。与其他算法相比,PPO 的三大优势是简单、稳定、样本效率。
PPO 的优点
- 简单性:PPO 近似于 TRPO 所做的事情,无需进行太多计算。它使用一阶优化(裁剪函数)来约束策略更新,而 TRPO 在目标函数之外使用 KL 散度约束(二阶优化)。与 TRPO 方法相比,PPO 方法相对容易实现并且计算时间较少。因此,在大规模问题中使用 PPO 更便宜、更高效。
- 稳定性:虽然其他强化学习算法需要超参数调整,但 PPO 不一定需要超参数调整(大多数情况下可以使用 epsilon 0.2)。此外,PPO 不需要复杂的优化技术。它可以使用标准深度学习框架轻松练习,并推广到广泛的任务。
- 样本效率:样本效率表明算法是否需要更多或更少的数据来训练好的策略。 PPO 由于使用了替代目标实现了样本效率。替代目标使 PPO 能够避免新策略与旧策略变化太大;剪辑函数规范策略更新并重用训练数据。样本效率对于复杂和高维的任务特别有用,因为这些任务的数据收集和计算成本可能很高。
参考来源
【1】https://en.wikipedia.org/wiki/Proximal_Policy_Optimization