HyperAIHyperAI

Command Palette

Search for a command to run...

Decision Transformer : Apprentissage par renforcement par modélisation de séquence

Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel Aravind Srinivas Igor Mordatch

Résumé

Nous introduisons un cadre qui modélise l’apprentissage par renforcement (RL) comme un problème de modélisation de séquences. Cette approche permet de tirer parti de la simplicité et de l’extensibilité de l’architecture Transformer, ainsi que des avancées récentes en modélisation du langage telles que GPT-x et BERT. Plus précisément, nous proposons Decision Transformer, une architecture qui reformule le problème du RL comme une tâche de modélisation de séquences conditionnelles. Contrairement aux approches antérieures du RL qui s’appuient sur l’ajustement de fonctions de valeur ou le calcul de gradients de politique, Decision Transformer produit simplement les actions optimales en exploitant un Transformer masqué de manière causale. En conditionnant un modèle autoregressif sur le rendement souhaité (récompense), les états passés et les actions antérieures, notre modèle Decision Transformer est capable de générer des actions futures permettant d’atteindre le rendement ciblé. Malgré sa simplicité, Decision Transformer atteint ou dépasse les performances des meilleures méthodes de RL hors-ligne sans modèle (model-free) sur des tâches telles qu’Atari, OpenAI Gym et Key-to-Door.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp