
摘要
我们提出了一类新的强化学习策略梯度方法,该方法通过与环境交互采样数据,并使用随机梯度上升优化一个“替代”目标函数,交替进行。传统的策略梯度方法每次采样数据后仅进行一次梯度更新,而我们提出了一种新颖的目标函数,允许进行多个小批量更新的周期。我们将这些新方法称为近端策略优化(Proximal Policy Optimization, PPO),它们具有一些信任区域策略优化(Trust Region Policy Optimization, TRPO)的优点,但实现起来更加简单,适用范围更广,并且在样本复杂度方面表现出更好的性能(实证结果)。我们的实验在一系列基准任务上测试了PPO,包括模拟机器人运动和Atari游戏玩法,并展示了PPO优于其他在线策略梯度方法,总体上在样本复杂度、简洁性和运行时间之间取得了有利的平衡。