
要約
本稿では、従来のオンポリシー型アクタ・クリティック手法を、方策(policy)と価値関数(value function)の学習を別々のフェーズに分離することで改良した強化学習フレームワーク「Phasic Policy Gradient(PPG)」を提案する。従来の手法では、方策と価値関数を共有ネットワークで表現するか、別々のネットワークを使用するかの選択が必要であった。別々のネットワークを用いることで、最適化目標間の干渉を回避できる一方、共有ネットワークを用いることで、有用な特徴量の共有が可能となる。PPGは、最適化プロセスを「学習の進展(training advancement)」と「特徴量の蒸留(feature distillation)」の2フェーズに分割することで、両者の利点を両立する。また、PPGは価値関数の最適化をより積極的に行い、サンプルの再利用率を高めることが可能となる。PPOと比較して、難易度の高いProcgen Benchmarkにおいて、PPGは顕著なサンプル効率の向上を達成した。