Meta-RL Hors Ligne
Offline Meta-RL est une direction de recherche émergente qui combine l'apprentissage par renforcement hors ligne (Offline RL) et l'apprentissage par méta-renforcement (Meta-RL). Ce concept a été proposé pour la première fois en 2020 par l’équipe de recherche DeepMind et publié dans l’article «Apprentissage par renforcement méta hors ligne" est élaboré en détail dans ". Il vise à exploiter les données hors ligne (c'est-à-dire les données collectées à l'avance et ne dépendant pas des interactions en ligne) pour former des modèles, leur permettant de s'adapter rapidement à de nouvelles tâches ou à de nouveaux environnements sans nécessiter d'interactions en ligne étendues. Cette approche est particulièrement adaptée aux scénarios où les coûts d’interaction en ligne sont élevés ou les risques sont élevés, comme dans les domaines médical et de la conduite autonome.