17日前

パーシック・ポリシー・グラディエント

Karl Cobbe, Jacob Hilton, Oleg Klimov, John Schulman

要約

本稿では、従来のオンポリシー型アクタ・クリティック手法を、方策（policy）と価値関数（value function）の学習を別々のフェーズに分離することで改良した強化学習フレームワーク「Phasic Policy Gradient（PPG）」を提案する。従来の手法では、方策と価値関数を共有ネットワークで表現するか、別々のネットワークを使用するかの選択が必要であった。別々のネットワークを用いることで、最適化目標間の干渉を回避できる一方、共有ネットワークを用いることで、有用な特徴量の共有が可能となる。PPGは、最適化プロセスを「学習の進展（training advancement）」と「特徴量の蒸留（feature distillation）」の2フェーズに分割することで、両者の利点を両立する。また、PPGは価値関数の最適化をより積極的に行い、サンプルの再利用率を高めることが可能となる。PPOと比較して、難易度の高いProcgen Benchmarkにおいて、PPGは顕著なサンプル効率の向上を達成した。