2ヶ月前

探査: 深層強化学習におけるカウントベースの探査に関する研究

Haoran Tang; Rein Houthooft; Davis Foote; Adam Stooke; Xi Chen; Yan Duan; John Schulman; Filip De Turck; Pieter Abbeel
探査: 深層強化学習におけるカウントベースの探査に関する研究
要約

カウントベースの探索アルゴリズムは、小さな離散マルコフ決定過程(MDP)を解くためにテーブル型強化学習(RL)手法と組み合わせて使用される際、近似的に最適な性能を発揮することが知られています。一般的には、高次元の状態空間ではほとんどの状態が一度しか発生しないため、カウントベースの方法は適用できないと考えられてきました。最近の深層強化学習の探索戦略は、不確実性に対する楽観主義や内在的動機付けに依存することも多い複雑なヒューリスティックを通じて、高次元連続状態空間に対処できるようになりました。本研究では、驚くべき結果を報告します:古典的なカウントベースアプローチの単純な一般化が、さまざまな高次元および/または連続的な深層強化学習ベンチマークで近似的に最先端の性能に達する可能性があることです。状態はハッシュコードにマッピングされ、これによりハッシュテーブルを使用してその出現回数をカウントすることができます。これらのカウント値は、古典的なカウントベース探索理論に基づいて報酬ボーナスを計算するために使用されます。我々は、単純なハッシュ関数でも多くの困難なタスクにおいて驚くほど良い結果を得られることを見出しました。さらに、ドメイン依存学習ハッシュコードがこれらの結果を更に改善する可能性があることを示しています。詳細な分析から、優れたハッシュ関数にとって重要な側面が明らかになりました:1) 適切な粒度を持つことと 2) MDPを解くのに必要な情報を符号化することです。この探索戦略は連続制御タスクとAtari 2600ゲームの両方で近似的に最先端の性能を達成しており、そのため広範囲な探索が必要となるMDPを解くための単純かつ強力な基準として機能します。