HyperAIHyperAI

Command Palette

Search for a command to run...

近端方策最適化アルゴリズム

John Schulman; Filip Wolski; Prafulla Dhariwal; Alec Radford; Oleg Klimov

概要

我々は強化学習の新しいポリシーグラディエント手法のファミリーを提案します。この手法は、環境との相互作用を通じてデータをサンプリングし、確率的勾配上昇法を使用して「代替」目的関数を最適化するというプロセスを交互に行います。標準的なポリシーグラディエント手法が各データサンプルに対して1回の勾配更新を行うのに対し、我々は複数のエポックにわたるミニバッチ更新を可能にする新しい目的関数を提案します。この新しい手法を近接ポリシーオプティマイゼーション(Proximal Policy Optimization, PPO)と呼びます。PPOには信頼領域ポリシーオプティマイゼーション(Trust Region Policy Optimization, TRPO)のいくつかの利点がありますが、実装がはるかに簡単で、より一般的であり、サンプル複雑度(経験的に)も優れています。我々の実験では、PPOをロボットの模擬歩行やAtariゲームプレイなどのベンチマークタスクでテストしました。その結果、PPOは他のオンラインポリシーグラディエント手法よりも優れた性能を示し、全体としてサンプル複雑度、簡易性、および壁時間(計算時間)の間で有利なバランスを達成しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています