HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage par renforcement en ligne et hors ligne par planification à l’aide d’un modèle appris

Julian Schrittwieser Thomas Hubert Amol Mandhane Mohammadamin Barekatain Ioannis Antonoglou David Silver

Résumé

Apprendre efficacement à partir de faibles quantités de données a longtemps été au cœur des recherches en apprentissage par renforcement fondé sur des modèles, que ce soit dans le cadre en ligne, lors de l’interaction avec l’environnement, ou dans le cadre hors ligne, lorsque l’apprentissage s’effectue à partir d’un ensemble de données fixe. Toutefois, à ce jour, aucun algorithme unifié n’avait pu atteindre des performances de pointe dans les deux contextes. Dans ce travail, nous présentons l’algorithme Reanalyse, qui utilise des opérateurs d’amélioration de politique et de valeur basés sur un modèle pour calculer de nouveaux objectifs d’apprentissage améliorés à partir des points de données existants, permettant ainsi un apprentissage efficace sur des budgets de données variant sur plusieurs ordres de grandeur. Nous montrons également que Reanalyse peut être utilisé pour apprendre entièrement à partir de démonstrations, sans aucune interaction avec l’environnement, comme dans le cas de l’apprentissage par renforcement hors ligne (offline RL). En combinant Reanalyse avec l’algorithme MuZero, nous introduisons MuZero Unplugged, un algorithme unifié unique adapté à tout budget de données, y compris le cadre offline RL. Contrairement aux travaux antérieurs, notre algorithme ne nécessite aucune adaptation particulière pour les cadres hors politique (off-policy) ou offline RL. MuZero Unplugged établit de nouveaux records d’état de l’art sur le benchmark offline RL RL Unplugged, ainsi que sur le benchmark en ligne Atari dans le cadre standard de 200 millions de cadres.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage par renforcement en ligne et hors ligne par planification à l’aide d’un modèle appris | Articles | HyperAI