il y a 2 mois

Algorithmes d'Optimisation de Politiques Proximales

John Schulman; Filip Wolski; Prafulla Dhariwal; Alec Radford; Oleg Klimov

Résumé

Nous proposons une nouvelle famille de méthodes de gradient de politique pour l'apprentissage par renforcement, qui alternent entre l'échantillonnage de données à travers l'interaction avec l'environnement et l'optimisation d'une fonction objectif « substitutive » en utilisant la montée de gradient stochastique. Contrairement aux méthodes de gradient de politique standard qui effectuent une mise à jour du gradient par échantillon de données, nous proposons une nouvelle fonction objectif permettant plusieurs époques de mises à jour par lots mini (minibatch). Les nouvelles méthodes, que nous appelons optimisation de politique proximale (Proximal Policy Optimization, PPO), présentent certaines des avantages de l'optimisation de politique dans les régions de confiance (Trust Region Policy Optimization, TRPO), mais elles sont beaucoup plus simples à mettre en œuvre, plus générales et ont une meilleure complexité d'échantillonnage (expérimentalement). Nos expériences testent le PPO sur une collection de tâches基准（benchmark），y compris la locomotion robotique simulée et le jeu sur les jeux Atari, et nous montrons que le PPO surpasse les autres méthodes de gradient de politique en ligne, et qu'il offre globalement un équilibre favorable entre la complexité d'échantillonnage, la simplicité et le temps réel.注：在翻译中，“基准”一词通常用于描述标准或参考点，在法语中可以翻译为“référence”或“standard”。但在特定的科技上下文中，使用“benchmark”更为常见和专业。因此，我保留了“benchmark”一词，并在其后加上了中文原文以确保信息完整。修正后的翻译：Nos expériences testent le PPO sur une collection de tâches benchmark, y compris la locomotion robotique simulée et le jeu sur les jeux Atari, et nous montrons que le PPO surpasse les autres méthodes de gradient de politique en ligne, et qu'il offre globalement un équilibre favorable entre la complexité d'échantillonnage, la simplicité et le temps réel.