HyperAI

Optimisation Des Politiques Proximales

L'optimisation des politiques proximales (PPO) est un algorithme dans le domaine de l'apprentissage par renforcement qui est utilisé pour former les fonctions de prise de décision des agents informatiques à accomplir des tâches difficiles. PPO a été développé par John Schulman en 2017 et est devenu l'algorithme d'apprentissage par renforcement par défaut de la société américaine d'intelligence artificielle OpenAI. En 2018, PPO a remporté divers succès, comme contrôler un bras robotique, battre des joueurs professionnels dans Dota 2 et obtenir de bonnes performances dans les jeux Atari. De nombreux experts considèrent le PPO comme la technologie la plus avancée car elle offre un bon équilibre entre performance et compréhension. Comparé à d’autres algorithmes, les trois principaux avantages du PPO sont la simplicité, la stabilité et l’efficacité de l’échantillonnage.

Avantages du PPO

  • Simplicité:PPO se rapproche de ce que fait TRPO sans faire autant de calculs. Il utilise l'optimisation du premier ordre (fonction de découpage) pour contraindre la mise à jour de la politique, tandis que TRPO utilise des contraintes de divergence KL en dehors de la fonction objective (optimisation du second ordre). Par rapport à la méthode TRPO, la méthode PPO est relativement simple à mettre en œuvre et nécessite moins de temps de calcul. Il est donc moins coûteux et plus efficace d’utiliser le PPO dans les problèmes à grande échelle.
  • stabilité:Alors que d’autres algorithmes d’apprentissage par renforcement nécessitent un réglage des hyperparamètres, PPO ne nécessite pas nécessairement un réglage des hyperparamètres (un epsilon de 0,2 convient dans la plupart des cas). De plus, le PPO ne nécessite pas de techniques d’optimisation complexes. Il peut être facilement pratiqué à l’aide de cadres d’apprentissage profond standard et se généralise à un large éventail de tâches.
  • Efficacité de l'échantillon :L'efficacité de l'échantillon indique si l'algorithme nécessite plus ou moins de données pour former une bonne politique. Le PPO atteint une efficacité d’échantillonnage grâce à l’utilisation de cibles de substitution. L’objectif de substitution permet au PPO d’éviter que la nouvelle politique ne s’écarte trop de l’ancienne ; la fonction de découpage régularise la mise à jour de la politique et réutilise les données de formation. L'efficacité de l'échantillonnage est particulièrement utile pour les tâches complexes et de grande dimension, où la collecte et le calcul des données peuvent être coûteux.

Références

【1】https://en.wikipedia.org/wiki/Proximal_Policy_Optimization