2 个月前

用于探索的噪声网络

Meire Fortunato; Mohammad Gheshlaghi Azar; Bilal Piot; Jacob Menick; Ian Osband; Alex Graves; Vlad Mnih; Remi Munos; Demis Hassabis; Olivier Pietquin; Charles Blundell; Shane Legg
用于探索的噪声网络
摘要

我们介绍了NoisyNet,这是一种在权重中加入参数噪声的深度强化学习代理,并展示了该代理策略所引起的随机性可以用于促进有效的探索。噪声的参数通过梯度下降与网络中的其他权重一同学习。NoisyNet的实现简单直接,且计算开销很小。我们发现,用NoisyNet替代A3C、DQN和双网络代理(分别对应熵奖励和$\varepsilon$-贪婪)的传统探索启发式方法,可以在广泛的Atari游戏中显著提高得分,在某些情况下甚至使代理从次人类水平提升到超人类水平的表现。

用于探索的噪声网络 | 最新论文 | HyperAI超神经