Exploration Profonde par DQN Bootstrapée

L'exploration efficace dans des environnements complexes reste un défi majeur pour l'apprentissage par renforcement. Nous proposons le bootstrapped DQN, un algorithme simple qui explore de manière computationnellement et statistiquement efficace grâce à l'utilisation de fonctions de valeur randomisées. Contrairement aux stratégies de perturbation comme l'exploration epsilon-greedy, le bootstrapped DQN réalise une exploration temporairement prolongée (ou profonde) ; cela peut conduire à un apprentissage exponentiellement plus rapide. Nous démontrons ces avantages dans des MDP stochastiques complexes et dans l'environnement d'apprentissage d'arcade à grande échelle. Le bootstrapped DQN améliore considérablement les temps d'apprentissage et les performances dans la plupart des jeux Atari.