vor 2 Monaten

Rauschige Netzwerke für die Erkundung

Meire Fortunato; Mohammad Gheshlaghi Azar; Bilal Piot; Jacob Menick; Ian Osband; Alex Graves; Vlad Mnih; Remi Munos; Demis Hassabis; Olivier Pietquin; Charles Blundell; Shane Legg

Details der Forschungsarbeit anzeigen

Abstract

Wir stellen NoisyNet vor, einen tiefen Reinforcement-Learning-Agenten mit parametrischem Rauschen in seinen Gewichten, und zeigen, dass die dadurch induzierte Stochastizität der Agentenpolitik zur effizienten Exploration genutzt werden kann. Die Parameter des Rauschens werden zusammen mit den restlichen Netzwerkgewichten durch Gradientenabstieg gelernt. NoisyNet ist einfach zu implementieren und verursacht kaum zusätzlichen Rechenaufwand. Wir feststellen, dass das Ersetzen der konventionellen Explorationsheuristiken für A3C, DQN und Dueling-Agents (Entropiebelohnung und $\varepsilon$-gierig jeweils) durch NoisyNet erheblich höhere Punktzahlen für eine breite Palette von Atari-Spielen erzielt, wobei in einigen Fällen die Leistung des Agenten von unter- auf übermenschliche Ebene steigt.