
要約
ブートストラッピングは強化学習(RL)における中心的なメカニズムである。多くのアルゴリズムは時系列差分(temporal difference)に基づいており、遷移先状態の真の価値を、その時点での現在の推定値で置き換える。しかし、RLのブートストラッピングに活用可能な別の推定値として、現在の方策(policy)が存在する。本研究の核心的貢献は、非常に単純なアイデアに起因する:即時報酬にスケーリングされた方策の対数(log-policy)を加算することである。本研究では、Deep Q-Network(DQN)をこのようにわずかに修正するだけで、分布型RL(distributional RL)、nステップ報酬(n-step returns)、優先的リプレイ(prioritized replay)を一切使用せずに、アタリゲームにおいて分布型手法と競合可能な性能を達成できることを示した。このアイデアの汎用性を示すために、さらにインプリシット・クォンタイル・ネットワーク(Implicit Quantile Network, IQN)と組み合わせた実験も行い、その結果得られたエージェントはRainbowを上回る性能を発揮し、オリジナルのアルゴリズムに対する微小な修正で、非常に高い性能を実現した。本研究の実証的分析に加えて、その背後で何が起こっているかについての強力な理論的洞察も提供する。具体的には、暗黙的なカルバック・ライブラー正則化(implicit Kullback-Leibler regularization)の発生と、行動ギャップ(action-gap)の増大が、この手法の成功に寄与していることが明らかになった。