2ヶ月前

優先経験再生

Tom Schaul; John Quan; Ioannis Antonoglou; David Silver
優先経験再生
要約

経験再生は、オンライン強化学習エージェントが過去の経験を記憶し、再利用することを可能にします。従来の研究では、再生メモリから経験遷移が一様にサンプリングされていました。しかし、このアプローチは遷移の重要性に関係なく、元々体験された頻度と同じ頻度で遷移を再生するだけです。本論文では、重要な遷移をより頻繁に再生することで効率的な学習を実現するための経験優先化フレームワークを開発しました。私たちは、多くのAtariゲームで人間レベルの性能を達成した強化学習アルゴリズムであるDeep Q-Networks (DQN) において、優先経験再生を使用しました。優先経験再生を使用したDQNは新たな最先端の成果を達成し、49つのゲーム中の41つで一様な再生を使用したDQNを上回る性能を示しました。