HyperAIHyperAI

Command Palette

Search for a command to run...

オフポリシー・アクターキャリック with シェアド・エクスペリエンスリプレイ

Simon Schmitt Matteo Hessel Karen Simonyan

概要

本研究では、アクタ・クリティック強化学習アルゴリズムと均一な大規模な経験リプレイ(experience replay)の組み合わせについて検討し、以下の2つの課題に対する解決策を提案する:(a) 経験リプレイを用いた効率的なアクタ・クリティック学習、(b) オフポリシー学習の安定性——すなわち、エージェントが他のエージェントの行動から学習する状況における安定性。これらの知見を活かして、すべての参加エージェントが並列で実行され、共通のリプレイモジュールを通じて経験を共有するハイパーパラメータスイープを高速化する手法を構築する。そのために、アクタ・クリティック手法における重要度サンプリングの一種であるV-traceにおけるバイアス・バリアンスのトレードオフを分析する。本分析に基づき、リプレイから抽出した経験とオンポリシー経験を混合することの有効性を主張し、V-traceが不安定になるようなデータ分布に対しても効果的にスケーラブルな新しい信頼領域(trust region)スキームを提案する。提案手法の有効性を広範な実証実験により検証する。さらに、2億環境フレームまで訓練されたエージェントにおいて、Atariゲームにおいて最先端のデータ効率を達成できることを示し、本設定の利点を実証する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています