Maîtrise du jeu Atari à l’aide de modèles mondes discrets

Les agents intelligents doivent généraliser à partir de leur expérience passée afin d’atteindre des objectifs dans des environnements complexes. Les modèles mondiaux facilitent cette généralisation et permettent d’apprendre des comportements à partir de résultats imaginés, ce qui améliore l’efficacité en échantillonnage. Bien que l’apprentissage de modèles mondiaux à partir d’entrées d’images soit devenu récemment réalisable pour certaines tâches, la modélisation précise des jeux Atari permettant d’obtenir des comportements efficaces est restée un défi ouvert depuis de nombreuses années. Nous introduisons DreamerV2, un agent d’apprentissage par renforcement qui apprend des comportements uniquement à partir de prédictions dans un espace latent compact d’un modèle mondial puissant. Ce modèle mondial utilise des représentations discrètes et est entraîné indépendamment de la politique. DreamerV2 constitue le premier agent à atteindre un niveau humain sur la benchmark Atari comprenant 55 tâches en apprenant des comportements à l’intérieur d’un modèle mondial entraîné séparément. Avec le même budget computationnel et le même temps réel, DreamerV2 atteint 200 millions de cadres et dépasse la performance finale des meilleurs agents monogpu actuels, IQN et Rainbow. DreamerV2 est également applicable à des tâches à actions continues, où il apprend un modèle mondial précis d’un robot humanoïde complexe et résout des tâches comme se lever ou marcher à partir uniquement d’entrées de pixels.