HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage et planification dans des espaces d'action complexes

Thomas Hubert Julian Schrittwieser Ioannis Antonoglou Mohammadamin Barekatain Simon Schmitt David Silver

Résumé

De nombreux problèmes réels d'importance présentent des espaces d’actions de grande dimension, continus ou les deux à la fois, rendant l’énumération complète de toutes les actions possibles inviable. En conséquence, seules de petites sous-ensembles d’actions peuvent être échantillonnés afin d’évaluer et d’améliorer la politique. Dans cet article, nous proposons un cadre général permettant de raisonner de manière rigoureuse sur l’évaluation et l’amélioration de politiques à partir de tels sous-ensembles d’actions échantillonnées. Ce cadre d’itération de politique basé sur l’échantillonnage peut, en principe, être appliqué à tout algorithme d’apprentissage par renforcement fondé sur l’itération de politique. Concrètement, nous introduisons Sampled MuZero, une extension de l’algorithme MuZero capable d’apprendre dans des domaines présentant des espaces d’actions arbitrairement complexes en planifiant uniquement sur des actions échantillonnées. Nous démontrons l’efficacité de cette approche sur le jeu classique de Go ainsi que sur deux domaines standards de contrôle continu : le DeepMind Control Suite et le Real-World RL Suite.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp