HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage par renforcement basé sur un modèle pour Atari

Résumé

L'apprentissage par renforcement (AR) sans modèle peut être utilisé pour apprendre des politiques efficaces pour des tâches complexes, telles que les jeux Atari, même à partir d'observations d'images. Cependant, cela nécessite généralement de très grandes quantités d'interactions — en réalité, bien plus que ce dont un humain aurait besoin pour apprendre les mêmes jeux. Comment les humains peuvent-ils apprendre si rapidement ? Une partie de la réponse pourrait être que les humains peuvent comprendre comment le jeu fonctionne et prédire quelles actions mèneront à des résultats souhaitables. Dans cet article, nous explorons comment des modèles de prédiction vidéo peuvent permettre aux agents de résoudre des jeux Atari avec moins d'interactions que les méthodes sans modèle. Nous décrivons l'algorithme complet d'AR basé sur un modèle, appelé Apprentissage de Politique Simulée (SimPLe), qui repose sur des modèles de prédiction vidéo, et présentons une comparaison de plusieurs architectures de modèles, y compris une nouvelle architecture qui donne les meilleurs résultats dans notre contexte. Nos expériences évaluent SimPLe sur une gamme de jeux Atari dans un régime à faibles données de 100 000 interactions entre l'agent et l'environnement, ce qui correspond à deux heures de jeu en temps réel. Dans la plupart des jeux, SimPLe surpasse les algorithmes AR sans modèle les plus avancés, parfois d'un ordre de grandeur supérieur.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp