HyperAIHyperAI

Command Palette

Search for a command to run...

IMPALA : Apprentissage par renforcement profond distribué à grande échelle avec des architectures d'acteur-apprenant pondérées par l'importance

Oriol Poursabzi-Sangdeh Lukasz Kaiser Tom Erez Owen Gathers Daan Wierstra

Résumé

Dans cette étude, nous visons à résoudre une vaste collection de tâches en utilisant un seul agent d'apprentissage par renforcement avec un seul ensemble de paramètres. Un défi majeur est de gérer la quantité accrue de données et le temps de formation prolongé. Nous avons développé un nouvel agent distribué appelé IMPALA (Architecture d'Acteur-A apprentissage Pondérée par l'Importance) qui non seulement utilise les ressources de manière plus efficace lors de la formation sur une seule machine, mais aussi s'étend à des milliers de machines sans compromettre l'efficacité des données ou l'utilisation des ressources. Nous atteignons un apprentissage stable à haut débit en combinant l'action et l'apprentissage découplés avec une nouvelle méthode de correction hors-politique appelée V-trace. Nous démontrons l'efficacité d'IMPALA pour l'apprentissage par renforcement multi-tâche sur DMLab-30 (un ensemble de 30 tâches provenant de l'environnement DeepMind Lab (Beattie et al., 2016)) et Atari-57 (tous les jeux Atari disponibles dans l'Arcade Learning Environment (Bellemare et al., 2013a)). Nos résultats montrent que IMPALA est capable d'atteindre des performances supérieures à celles des agents précédents avec moins de données, et qu'il présente un transfert positif entre les tâches grâce à son approche multi-tâche.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp