HyperAIHyperAI

Command Palette

Search for a command to run...

ブートストラップDQNを用いた深層探索

Ian Osband Charles Blundell Alexander Pritzel Benjamin Van Roy

概要

複雑な環境での効率的な探索は、強化学習にとって依然として大きな課題となっています。本稿では、ランダム化された価値関数を用いて計算量と統計的に効率的な探索を行うシンプルなアルゴリズムであるブートストラップDQN(bootstrapped DQN)を提案します。ε-グリーディ探索などの揺らぎ戦略とは異なり、ブートストラップDQNは時間的に持続する(または深層の)探索を行います。これは、指数関数的に速い学習につながる可能性があります。私たちは、複雑な確率的MDPや大規模なアーケード学習環境においてこれらの利点を示しました。ブートストラップDQNは、ほとんどのアタリゲームで学習時間と性能を大幅に改善しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ブートストラップDQNを用いた深層探索 | 記事 | HyperAI超神経