HyperAIHyperAI

Command Palette

Search for a command to run...

Modèles mondiaux plus petits pour l’apprentissage par renforcement

Jan Robine Tobias Uelwer Stefan Harmeling

Résumé

L’efficacité des échantillons reste un enjeu fondamental de l’apprentissage par renforcement. Les algorithmes basés sur un modèle cherchent à tirer un meilleur parti des données en simulant l’environnement à l’aide d’un modèle. Nous proposons une nouvelle architecture de réseau de neurones pour les modèles mondiaux, basée sur un auto-encodeur variationnel quantifié par vecteurs (VQ-VAE) afin de coder les observations, et sur un LSTM convolutif pour prédire les indices d’embeddings suivants. Un agent PPO sans modèle est entraîné exclusivement sur des expériences simulées issues du modèle mondial. Nous adoptons le cadre introduit par Kaiser et al. (2020), qui limite à 100 000 interactions avec l’environnement réel. Nous appliquons notre méthode à 36 environnements Atari et montrons que nous atteignons une performance comparable à celle de l’algorithme SimPLe, tout en utilisant un modèle significativement plus petit.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp