Contrôle de comportement apprenable : Battre les records humains sur Atari grâce à une sélection de comportements à faible consommation d’échantillons

Le problème d’exploration constitue l’un des principaux défis de l’apprentissage par renforcement profond (RL). Des travaux récents prometteurs ont tenté de le résoudre à l’aide de méthodes basées sur une population, qui collectent des échantillons présentant des comportements diversifiés issus d’une population de politiques d’exploration différentes. Une sélection adaptative des politiques a été adoptée pour contrôler le comportement. Toutefois, l’espace de sélection des comportements reste fortement limité par la population de politiques prédéfinie, ce qui entrave davantage la diversité des comportements. Dans cet article, nous proposons un cadre général appelé Contrôle Comportemental Apprenable (LBC) afin de surmonter cette limitation : a) il permet d’élargir considérablement l’espace de sélection des comportements en formulant une cartographie hybride du comportement à partir de toutes les politiques ; b) il établit un processus unifié et apprenable pour la sélection du comportement. Nous intégrons LBC dans des méthodes distribuées hors politique de type acteur-critique, et réalisons un contrôle du comportement en optimisant la sélection des cartographies comportementales à l’aide de contrôleurs métas basés sur des bandits. Nos agents ont atteint un score moyen normalisé par rapport à l’humain de 10 077,52 % et dépassé 24 records mondiaux humains en moins de 1 milliard d’étapes d’entraînement dans l’Arcade Learning Environment, ce qui démontre une performance état-de-l’art (SOTA) significative, sans compromettre l’efficacité en échantillons.