HyperAIHyperAI

Command Palette

Search for a command to run...

Critique d'Acteur Moyen

Cameron Allen extsuperscript1 extsuperscript* Kavosh Asadi extsuperscript1 extsuperscript* Melrose Roderick extsuperscript1 Abdel-rahman Mohamed extsuperscript2 extsuperscript† George Konidaris extsuperscript1 Michael Littman extsuperscript1

Résumé

Nous proposons un nouvel algorithme, Mean Actor-Critic (MAC), pour l'apprentissage par renforcement avec des actions discrètes et des états continus. MAC est un algorithme de gradient de politique qui utilise la représentation explicite de toutes les valeurs d'action de l'agent pour estimer le gradient de la politique, plutôt que d'utiliser uniquement les actions qui ont été effectivement exécutées. Nous démontrons que cette approche réduit la variance dans l'estimation du gradient de la politique par rapport aux méthodes acteur-critique traditionnelles. Nous présentons des résultats empiriques sur deux domaines de contrôle et sur six jeux Atari, où MAC se montre compétitif avec les algorithmes de recherche de politique les plus avancés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp