
要約
我々は強化学習の新しいポリシーグラディエント手法のファミリーを提案します。この手法は、環境との相互作用を通じてデータをサンプリングし、確率的勾配上昇法を使用して「代替」目的関数を最適化するというプロセスを交互に行います。標準的なポリシーグラディエント手法が各データサンプルに対して1回の勾配更新を行うのに対し、我々は複数のエポックにわたるミニバッチ更新を可能にする新しい目的関数を提案します。この新しい手法を近接ポリシーオプティマイゼーション(Proximal Policy Optimization, PPO)と呼びます。PPOには信頼領域ポリシーオプティマイゼーション(Trust Region Policy Optimization, TRPO)のいくつかの利点がありますが、実装がはるかに簡単で、より一般的であり、サンプル複雑度(経験的に)も優れています。我々の実験では、PPOをロボットの模擬歩行やAtariゲームプレイなどのベンチマークタスクでテストしました。その結果、PPOは他のオンラインポリシーグラディエント手法よりも優れた性能を示し、全体としてサンプル複雑度、簡易性、および壁時間(計算時間)の間で有利なバランスを達成しています。