HyperAIHyperAI
il y a 2 mois

Apprentissage par renforcement basé sur un modèle pour Atari

Lukasz Kaiser; Mohammad Babaeizadeh; Piotr Milos; Blazej Osinski; Roy H Campbell; Konrad Czechowski; Dumitru Erhan; Chelsea Finn; Piotr Kozakowski; Sergey Levine; Afroz Mohiuddin; Ryan Sepassi; George Tucker; Henryk Michalewski
Apprentissage par renforcement basé sur un modèle pour Atari
Résumé

L'apprentissage par renforcement (AR) sans modèle peut être utilisé pour apprendre des politiques efficaces pour des tâches complexes, telles que les jeux Atari, même à partir d'observations d'images. Cependant, cela nécessite généralement de très grandes quantités d'interactions — en réalité, bien plus que ce dont un humain aurait besoin pour apprendre les mêmes jeux. Comment les humains peuvent-ils apprendre si rapidement ? Une partie de la réponse pourrait être que les humains peuvent comprendre comment le jeu fonctionne et prédire quelles actions mèneront à des résultats souhaitables. Dans cet article, nous explorons comment des modèles de prédiction vidéo peuvent permettre aux agents de résoudre des jeux Atari avec moins d'interactions que les méthodes sans modèle. Nous décrivons l'algorithme complet d'AR basé sur un modèle, appelé Apprentissage de Politique Simulée (SimPLe), qui repose sur des modèles de prédiction vidéo, et présentons une comparaison de plusieurs architectures de modèles, y compris une nouvelle architecture qui donne les meilleurs résultats dans notre contexte. Nos expériences évaluent SimPLe sur une gamme de jeux Atari dans un régime à faibles données de 100 000 interactions entre l'agent et l'environnement, ce qui correspond à deux heures de jeu en temps réel. Dans la plupart des jeux, SimPLe surpasse les algorithmes AR sans modèle les plus avancés, parfois d'un ordre de grandeur supérieur.