HyperAIHyperAI
il y a 2 mois

Optimisation de la politique avec une distance de probabilité ponctuelle pénalisée : Une alternative à l'optimisation de la politique proximale

Xiangxiang Chu
Optimisation de la politique avec une distance de probabilité ponctuelle pénalisée : Une alternative à l'optimisation de la politique proximale
Résumé

En tant que la variante et l'amélioration les plus réussies de l'optimisation des politiques par région de confiance (Trust Region Policy Optimization, TRPO), l'optimisation des politiques proximales (Proximal Policy Optimization, PPO) a été largement appliquée dans divers domaines grâce à plusieurs avantages : une utilisation efficace des données, une mise en œuvre simple et une bonne parallélisme. Dans cet article, nous proposons un algorithme d'apprentissage par renforcement du premier ordre appelé Optimisation des Politiques avec Distance de Probabilité Ponctuelle Pénalisée (Policy Optimization with Penalized Point Probability Distance, POP3D), qui constitue une borne inférieure de la divergence de variance totale au carré, comme une autre variante puissante. Tout d'abord, nous discutons des lacunes de plusieurs algorithmes couramment utilisés, qui motivent partiellement notre méthode. Ensuite, nous abordons comment surmonter ces lacunes en appliquant POP3D. Ensuite, nous examinons son mécanisme sous l'angle de la variété des solutions. Enfin, nous effectuons des comparaisons quantitatives entre plusieurs algorithmes de pointe basés sur des benchmarks communs. Les résultats de simulation montrent que POP3D est hautement compétitif par rapport à PPO. De plus, notre code est publié sur https://github.com/paperwithcode/pop3d.