2ヶ月前
行動ギャップの拡大:強化学習の新しい演算子
Marc G. Bellemare; Georg Ostrovski; Arthur Guez; Philip S. Thomas; Rémi Munos

要約
本論文では、Q関数に対する新たな最適性を保つ演算子を紹介します。まず、テーブル形式表現用の演算子、すなわち一貫性ベルマン演算子について説明します。この演算子は、局所方策の一貫性という概念を取り入れています。我々は、この局所的一貫性が各状態における行動ギャップの増加につながることを示し、行動ギャップの増大が近似誤差や推定誤差によって引き起こされる望ましくない影響を軽減すると主張します。この演算子は離散化された連続空間と時間問題にも適用可能であり、その文脈での優れた性能を証明する実験結果も提供しています。局所的に一貫した演算子のアイデアを拡張し、最適性を保つための十分条件を導出します。これにより、一貫性ベルマン演算子を含む一連の演算子が得られます。付随して、Bairdのアドバンテージ学習アルゴリズムの最適性に関する証明を行い、他の興味深い特性を持つギャップ増大演算子も導出します。最後に、60種類のAtari 2600ゲームに対する実験研究を行い、これらの新しい演算子が持つ強力な潜在能力を示しています。