HyperAIHyperAI
il y a 11 jours

Apprentissage et planification dans des espaces d'action complexes

Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Mohammadamin Barekatain, Simon Schmitt, David Silver
Apprentissage et planification dans des espaces d'action complexes
Résumé

De nombreux problèmes réels d'importance présentent des espaces d’actions de grande dimension, continus ou les deux à la fois, rendant l’énumération complète de toutes les actions possibles inviable. En conséquence, seules de petites sous-ensembles d’actions peuvent être échantillonnés afin d’évaluer et d’améliorer la politique. Dans cet article, nous proposons un cadre général permettant de raisonner de manière rigoureuse sur l’évaluation et l’amélioration de politiques à partir de tels sous-ensembles d’actions échantillonnées. Ce cadre d’itération de politique basé sur l’échantillonnage peut, en principe, être appliqué à tout algorithme d’apprentissage par renforcement fondé sur l’itération de politique. Concrètement, nous introduisons Sampled MuZero, une extension de l’algorithme MuZero capable d’apprendre dans des domaines présentant des espaces d’actions arbitrairement complexes en planifiant uniquement sur des actions échantillonnées. Nous démontrons l’efficacité de cette approche sur le jeu classique de Go ainsi que sur deux domaines standards de contrôle continu : le DeepMind Control Suite et le Real-World RL Suite.

Apprentissage et planification dans des espaces d'action complexes | Articles de recherche récents | HyperAI