2ヶ月前
深層強化学習のためのデュエルネットワークアーキテクチャ
Ziyu Wang; Tom Schaul; Matteo Hessel; Hado van Hasselt; Marc Lanctot; Nando de Freitas

要約
近年、強化学習における深層表現の利用に多くの成功例が見られています。しかし、これらのアプリケーションの多くは、畳み込みニューラルネットワーク、LSTM(Long Short-Term Memory)、オートエンコーダーなどの従来のアーキテクチャを使用しています。本論文では、モデルフリーの強化学習向けに新しいニューラルネットワークアーキテクチャを提案します。私たちのデュエルネットワークは、状態価値関数と状態依存的な行動優位関数をそれぞれ推定する2つの分離された推定器を表現します。この分解の主な利点は、基礎となる強化学習アルゴリズムに変更を加えることなく、行動間での学習を一般化できることです。我々の結果は、類似した価値を持つ多くの行動が存在する場合に、このアーキテクチャがより良い方策評価につながることを示しています。さらに、デュエルアーキテクチャにより、当社の強化学習エージェントはAtari 2600ドメインにおいて最先端技術を超える性能を発揮しました。