Gradient de Politique Phasique

Nous introduisons Phasic Policy Gradient (PPG), un cadre d’apprentissage par renforcement qui modifie les méthodes classiques d’actor-critic en politique en phase en séparant l’entraînement de la politique et de la fonction valeur en phases distinctes. Dans les approches antérieures, il fallait choisir entre utiliser un réseau partagé ou des réseaux distincts pour représenter la politique et la fonction valeur. L’utilisation de réseaux distincts évite les interférences entre les objectifs, tandis que l’utilisation d’un réseau partagé permet de partager des caractéristiques utiles. PPG parvient à combiner le meilleur des deux mondes en divisant l’optimisation en deux phases : une phase d’avancement de l’entraînement et une phase de distillation des caractéristiques. De plus, PPG permet une optimisation plus agressive de la fonction valeur, avec un taux accru de réutilisation des échantillons. Comparé à PPO, nous observons que PPG améliore de manière significative l’efficacité en échantillons sur le défi du benchmark Procgen.