Exploration Consciente des Contingences dans l'Apprentissage par Renforcement

Ce travail examine si l'apprentissage de la conscience des contingences et des aspects contrôlables d'un environnement peut conduire à une meilleure exploration en apprentissage par renforcement. Pour étudier cette question, nous considérons une mise en œuvre de cette hypothèse évaluée sur l'Arcade Learning Environment (ALE). Dans cette étude, nous développons un modèle de dynamiques attentif (ADM) qui découvre les éléments contrôlables des observations, souvent associés à la position du personnage dans les jeux Atari. L'ADM est formé de manière auto-supervisée pour prédire les actions entreprises par l'agent. Les informations de contingence apprises sont utilisées comme partie de la représentation d'état aux fins d'exploration. Nous démontrons que la combinaison de l'algorithme acteur-critique avec une exploration basée sur le comptage en utilisant notre représentation permet d'obtenir des résultats impressionnants sur un ensemble de jeux Atari notoirement difficiles en raison de récompenses rares. Par exemple, nous rapportons un score d'avant-garde supérieur à 11 000 points sur Montezuma's Revenge sans utiliser de démonstrations d'experts, d'informations explicites de haut niveau (par exemple, les états RAM) ou de données supervisées. Nos expériences confirment que la conscience des contingences est effectivement un concept extrêmement puissant pour aborder les problèmes d'exploration en apprentissage par renforcement et ouvre des questions de recherche intéressantes pour des investigations ultérieures.