2ヶ月前
ノイジー・ネットワークによる探索
Meire Fortunato; Mohammad Gheshlaghi Azar; Bilal Piot; Jacob Menick; Ian Osband; Alex Graves; Vlad Mnih; Remi Munos; Demis Hassabis; Olivier Pietquin; Charles Blundell; Shane Legg

要約
私たちはパラメトリックノイズを重みに加えた深層強化学習エージェントであるNoisyNetを導入し、その方策の誘導される確率性が効率的な探索を支援することができることを示します。ノイズのパラメータは、残りのネットワークの重みとともに勾配降下法で学習されます。NoisyNetは実装が簡単であり、計算負荷もほとんど増えません。A3C、DQNおよびデューリングエージェント(それぞれエントロピー報酬と$\varepsilon$-グリーディ)の従来の探索ヒューリスティクスをNoisyNetに置き換えることで、アタリゲームの広い範囲において著しく高いスコアを得られることを確認しました。いくつかの場合では、エージェントの性能がサブヒューマンからスーパーヒューマンへと向上しました。