Réseaux bruyants pour l'exploration

Nous présentons NoisyNet, un agent d'apprentissage par renforcement profond auquel une perturbation paramétrique est ajoutée aux poids de ses neurones, et nous montrons que la stochasticité induite par cette perturbation peut être utilisée pour faciliter l'exploration efficace. Les paramètres de la perturbation sont appris par descente de gradient en même temps que les autres poids du réseau. NoisyNet est simple à mettre en œuvre et ajoute peu de surcoût computationnel. Nous constatons que le remplacement des heuristiques d'exploration conventionnelles pour les agents A3C, DQN et dueling (récompense d'entropie et $\varepsilon$-greedy respectivement) par NoisyNet permet d'obtenir des scores nettement plus élevés pour une large gamme de jeux Atari, faisant passer dans certains cas la performance de l'agent d'une performance inférieure à humaine à une performance supérieure à humaine.