Command Palette
Search for a command to run...
ブートストラップDQNを用いた深層探索
ブートストラップDQNを用いた深層探索
Ian Osband Charles Blundell Alexander Pritzel Benjamin Van Roy
概要
複雑な環境での効率的な探索は、強化学習にとって依然として大きな課題となっています。本稿では、ランダム化された価値関数を用いて計算量と統計的に効率的な探索を行うシンプルなアルゴリズムであるブートストラップDQN(bootstrapped DQN)を提案します。ε-グリーディ探索などの揺らぎ戦略とは異なり、ブートストラップDQNは時間的に持続する(または深層の)探索を行います。これは、指数関数的に速い学習につながる可能性があります。私たちは、複雑な確率的MDPや大規模なアーケード学習環境においてこれらの利点を示しました。ブートストラップDQNは、ほとんどのアタリゲームで学習時間と性能を大幅に改善しています。