HyperAIHyperAI

Command Palette

Search for a command to run...

Algorithmes d'Optimisation de Politiques Proximales

John Schulman; Filip Wolski; Prafulla Dhariwal; Alec Radford; Oleg Klimov

Résumé

Nous proposons une nouvelle famille de méthodes de gradient de politique pour l'apprentissage par renforcement, qui alternent entre l'échantillonnage de données à travers l'interaction avec l'environnement et l'optimisation d'une fonction objectif « substitutive » en utilisant la montée de gradient stochastique. Contrairement aux méthodes de gradient de politique standard qui effectuent une mise à jour du gradient par échantillon de données, nous proposons une nouvelle fonction objectif permettant plusieurs époques de mises à jour par lots mini (minibatch). Les nouvelles méthodes, que nous appelons optimisation de politique proximale (Proximal Policy Optimization, PPO), présentent certaines des avantages de l'optimisation de politique dans les régions de confiance (Trust Region Policy Optimization, TRPO), mais elles sont beaucoup plus simples à mettre en œuvre, plus générales et ont une meilleure complexité d'échantillonnage (expérimentalement). Nos expériences testent le PPO sur une collection de tâches基准(benchmark),y compris la locomotion robotique simulée et le jeu sur les jeux Atari, et nous montrons que le PPO surpasse les autres méthodes de gradient de politique en ligne, et qu'il offre globalement un équilibre favorable entre la complexité d'échantillonnage, la simplicité et le temps réel.注:在翻译中,“基准”一词通常用于描述标准或参考点,在法语中可以翻译为“référence”或“standard”。但在特定的科技上下文中,使用“benchmark”更为常见和专业。因此,我保留了“benchmark”一词,并在其后加上了中文原文以确保信息完整。修正后的翻译:Nos expériences testent le PPO sur une collection de tâches benchmark, y compris la locomotion robotique simulée et le jeu sur les jeux Atari, et nous montrons que le PPO surpasse les autres méthodes de gradient de politique en ligne, et qu'il offre globalement un équilibre favorable entre la complexité d'échantillonnage, la simplicité et le temps réel.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp