近接ポリシー最適化 (PPO) は、難しいタスクを完了するためにコンピューター エージェントの意思決定機能を訓練するために使用される強化学習の分野のアルゴリズムです。 PPO は 2017 年に John Schulman によって開発され、アメリカの人工知能企業 OpenAI のデフォルトの強化学習アルゴリズムになりました。 2018 年、PPO はロボット アームの制御、Dota 2 でのプロ プレーヤーの勝利、Atari ゲームでの好成績など、さまざまな成功を収めました。多くの専門家は、PPO がパフォーマンスと理解のバランスが取れているため、最も先進的なテクノロジーであると呼んでいます。他のアルゴリズムと比較した場合、PPO の 3 つの主な利点は、単純さ、安定性、サンプル効率です。
PPOのメリット
- シンプルさ:PPO は、多くの計算を行わずに TRPO の動作を近似します。 TRPO は目的関数の外側で KL 発散制約 (2 次最適化) を使用するのに対し、TRPO は 1 次最適化 (クリッピング関数) を使用してポリシーの更新を制限します。 TRPO 手法と比較して、PPO 手法は実装が比較的簡単で、計算時間が短くなります。したがって、大規模な問題では PPO を使用する方が安価で効率的です。
- 安定性:他の強化学習アルゴリズムではハイパーパラメーターの調整が必要ですが、PPO では必ずしもハイパーパラメーターの調整が必要ではありません (ほとんどの場合、イプシロン 0.2 を使用できます)。さらに、PPO は複雑な最適化手法を必要としません。標準の深層学習フレームワークを使用して簡単に実践でき、幅広いタスクに一般化できます。
- サンプル効率:サンプル効率は、アルゴリズムが適切なポリシーをトレーニングするために必要なデータが多いか少ないかを示します。 PPO は、代理ターゲットの使用によりサンプル効率を実現します。サロゲート目標により、PPO は新しいポリシーが古いポリシーから大きく変更されることを回避できます。クリッピング機能はポリシーの更新を規制し、トレーニング データを再利用します。サンプル効率は、データ収集と計算コストが高くなる可能性がある複雑で高次元のタスクに特に役立ちます。
参考文献
【1】https://en.wikipedia.org/wiki/Proximal_Policy_Optimization