Decision Transformer : Apprentissage par renforcement par modélisation de séquence

Nous introduisons un cadre qui modélise l’apprentissage par renforcement (RL) comme un problème de modélisation de séquences. Cette approche permet de tirer parti de la simplicité et de l’extensibilité de l’architecture Transformer, ainsi que des avancées récentes en modélisation du langage telles que GPT-x et BERT. Plus précisément, nous proposons Decision Transformer, une architecture qui reformule le problème du RL comme une tâche de modélisation de séquences conditionnelles. Contrairement aux approches antérieures du RL qui s’appuient sur l’ajustement de fonctions de valeur ou le calcul de gradients de politique, Decision Transformer produit simplement les actions optimales en exploitant un Transformer masqué de manière causale. En conditionnant un modèle autoregressif sur le rendement souhaité (récompense), les états passés et les actions antérieures, notre modèle Decision Transformer est capable de générer des actions futures permettant d’atteindre le rendement ciblé. Malgré sa simplicité, Decision Transformer atteint ou dépasse les performances des meilleures méthodes de RL hors-ligne sans modèle (model-free) sur des tâches telles qu’Atari, OpenAI Gym et Key-to-Door.