Apprentissage par renforcement en ligne et hors ligne par planification à l’aide d’un modèle appris

Apprendre efficacement à partir de faibles quantités de données a longtemps été au cœur des recherches en apprentissage par renforcement fondé sur des modèles, que ce soit dans le cadre en ligne, lors de l’interaction avec l’environnement, ou dans le cadre hors ligne, lorsque l’apprentissage s’effectue à partir d’un ensemble de données fixe. Toutefois, à ce jour, aucun algorithme unifié n’avait pu atteindre des performances de pointe dans les deux contextes. Dans ce travail, nous présentons l’algorithme Reanalyse, qui utilise des opérateurs d’amélioration de politique et de valeur basés sur un modèle pour calculer de nouveaux objectifs d’apprentissage améliorés à partir des points de données existants, permettant ainsi un apprentissage efficace sur des budgets de données variant sur plusieurs ordres de grandeur. Nous montrons également que Reanalyse peut être utilisé pour apprendre entièrement à partir de démonstrations, sans aucune interaction avec l’environnement, comme dans le cas de l’apprentissage par renforcement hors ligne (offline RL). En combinant Reanalyse avec l’algorithme MuZero, nous introduisons MuZero Unplugged, un algorithme unifié unique adapté à tout budget de données, y compris le cadre offline RL. Contrairement aux travaux antérieurs, notre algorithme ne nécessite aucune adaptation particulière pour les cadres hors politique (off-policy) ou offline RL. MuZero Unplugged établit de nouveaux records d’état de l’art sur le benchmark offline RL RL Unplugged, ainsi que sur le benchmark en ligne Atari dans le cadre standard de 200 millions de cadres.