HyperAIHyperAI

Command Palette

Search for a command to run...

Relecture d'Expérience Prioritée Distribuée

Dan Horgan John Quan David Budden Gabriel Barth-Maron Matteo Hessel Hado van Hasselt David Silver

Résumé

Nous proposons une architecture distribuée pour l'apprentissage par renforcement profond à grande échelle, permettant aux agents d'apprendre efficacement à partir de quantités de données plusieurs ordres de grandeur supérieures à ce qui était précédemment possible. L'algorithme découple l'action de l'apprentissage : les acteurs interagissent avec leurs propres instances de l'environnement en sélectionnant des actions selon un réseau neuronal partagé, et accumulent l'expérience résultante dans une mémoire de répétition d'expérience partagée ; l'apprenant rejoue des échantillons d'expérience et met à jour le réseau neuronal. Cette architecture repose sur la répétition d'expérience prioritaire pour se concentrer uniquement sur les données les plus significatives générées par les acteurs. Notre architecture améliore considérablement l'état de l'art dans l'Environnement d'Apprentissage Arcade, atteignant une meilleure performance finale en un temps de formation bien inférieur.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp