HyperAIHyperAI

Command Palette

Search for a command to run...

Gradient de Politique Phasique

Karl Cobbe Jacob Hilton Oleg Klimov John Schulman

Résumé

Nous introduisons Phasic Policy Gradient (PPG), un cadre d’apprentissage par renforcement qui modifie les méthodes classiques d’actor-critic en politique en phase en séparant l’entraînement de la politique et de la fonction valeur en phases distinctes. Dans les approches antérieures, il fallait choisir entre utiliser un réseau partagé ou des réseaux distincts pour représenter la politique et la fonction valeur. L’utilisation de réseaux distincts évite les interférences entre les objectifs, tandis que l’utilisation d’un réseau partagé permet de partager des caractéristiques utiles. PPG parvient à combiner le meilleur des deux mondes en divisant l’optimisation en deux phases : une phase d’avancement de l’entraînement et une phase de distillation des caractéristiques. De plus, PPG permet une optimisation plus agressive de la fonction valeur, avec un taux accru de réutilisation des échantillons. Comparé à PPO, nous observons que PPG améliore de manière significative l’efficacité en échantillons sur le défi du benchmark Procgen.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp