Command Palette
Search for a command to run...
Apprentissage par renforcement profond avec double Q-apprentissage
Apprentissage par renforcement profond avec double Q-apprentissage
Hado van Hasselt; Arthur Guez; David Silver
Résumé
L'algorithme de Q-learning populaire est connu pour surestimer les valeurs d'action sous certaines conditions. Il n'était pas clair jusqu'à présent si, en pratique, de telles surestimations étaient courantes, si elles nuisaient aux performances et si elles pouvaient généralement être évitées. Dans cet article, nous répondons par l'affirmative à toutes ces questions. Plus précisément, nous montrons d'abord que l'algorithme DQN récent, qui combine le Q-learning avec un réseau neuronal profond, souffre de surestimations importantes dans certains jeux du domaine Atari 2600. Nous démontrons ensuite que l'idée derrière l'algorithme Double Q-learning, introduit initialement dans un cadre tabulaire, peut être généralisée pour fonctionner avec des approximations de fonctions à grande échelle. Nous proposons une adaptation spécifique de l'algorithme DQN et montrons que l'algorithme résultant non seulement réduit les surestimations observées, comme prévu, mais qu'il améliore également considérablement les performances sur plusieurs jeux.