HyperAIHyperAI

Command Palette

Search for a command to run...

Optimisation de la politique avec une distance de probabilité ponctuelle pénalisée : Une alternative à l'optimisation de la politique proximale

Xiangxiang Chu

Résumé

En tant que la variante et l'amélioration les plus réussies de l'optimisation des politiques par région de confiance (Trust Region Policy Optimization, TRPO), l'optimisation des politiques proximales (Proximal Policy Optimization, PPO) a été largement appliquée dans divers domaines grâce à plusieurs avantages : une utilisation efficace des données, une mise en œuvre simple et une bonne parallélisme. Dans cet article, nous proposons un algorithme d'apprentissage par renforcement du premier ordre appelé Optimisation des Politiques avec Distance de Probabilité Ponctuelle Pénalisée (Policy Optimization with Penalized Point Probability Distance, POP3D), qui constitue une borne inférieure de la divergence de variance totale au carré, comme une autre variante puissante. Tout d'abord, nous discutons des lacunes de plusieurs algorithmes couramment utilisés, qui motivent partiellement notre méthode. Ensuite, nous abordons comment surmonter ces lacunes en appliquant POP3D. Ensuite, nous examinons son mécanisme sous l'angle de la variété des solutions. Enfin, nous effectuons des comparaisons quantitatives entre plusieurs algorithmes de pointe basés sur des benchmarks communs. Les résultats de simulation montrent que POP3D est hautement compétitif par rapport à PPO. De plus, notre code est publié sur https://github.com/paperwithcode/pop3d.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp