HyperAIHyperAI

Command Palette

Search for a command to run...

パーシック・ポリシー・グラディエント

Karl Cobbe Jacob Hilton Oleg Klimov John Schulman

概要

本稿では、従来のオンポリシー型アクタ・クリティック手法を、方策(policy)と価値関数(value function)の学習を別々のフェーズに分離することで改良した強化学習フレームワーク「Phasic Policy Gradient(PPG)」を提案する。従来の手法では、方策と価値関数を共有ネットワークで表現するか、別々のネットワークを使用するかの選択が必要であった。別々のネットワークを用いることで、最適化目標間の干渉を回避できる一方、共有ネットワークを用いることで、有用な特徴量の共有が可能となる。PPGは、最適化プロセスを「学習の進展(training advancement)」と「特徴量の蒸留(feature distillation)」の2フェーズに分割することで、両者の利点を両立する。また、PPGは価値関数の最適化をより積極的に行い、サンプルの再利用率を高めることが可能となる。PPOと比較して、難易度の高いProcgen Benchmarkにおいて、PPGは顕著なサンプル効率の向上を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
パーシック・ポリシー・グラディエント | 記事 | HyperAI超神経