2ヶ月前
Deep Reinforcement Learning with Double Q-learning 深層強化学習におけるダブルQ学習
Hado van Hasselt; Arthur Guez; David Silver

要約
Q学習アルゴリズムは、特定の条件下で行動価値を過大評価することが知られています。しかし、実際の運用においてこのような過大評価が一般的に起こり、パフォーマンスに悪影響を与え、一般的に防止できるかどうかはこれまで明らかではありませんでした。本論文では、これらの問いに対して肯定的な回答を示します。特に、Q学習と深層ニューラルネットワークを組み合わせた最近のDQNアルゴリズムが、Atari 2600ドメインのいくつかのゲームで著しい過大評価を引き起こすことを最初に示します。次に、テーブル形式で導入されたDouble Q学習アルゴリズムの背後にあるアイデアが、大規模な関数近似にも一般化できることを示します。私たちはDQNアルゴリズムへの具体的な適応方法を提案し、その結果得られたアルゴリズムが仮説通り観察された過大評価を軽減するだけでなく、いくつかのゲームでのパフォーマンスも大幅に向上することを示します。