Proximale Richtlinienoptimierung
Proximal Policy Optimization (PPO) ist ein Algorithmus aus dem Bereich des bestärkenden Lernens, der dazu dient, die Entscheidungsfunktionen von Computeragenten für die Bewältigung schwieriger Aufgaben zu trainieren. PPO wurde 2017 von John Schulman entwickelt und hat sich beim amerikanischen Unternehmen für künstliche Intelligenz OpenAI zum Standardalgorithmus für bestärkendes Lernen entwickelt. Im Jahr 2018 erzielte PPO verschiedene Erfolge, beispielsweise die Steuerung eines Roboterarms, das Besiegen von Profispielern in Dota 2 und gute Leistungen in Atari-Spielen. Viele Experten bezeichnen PPO als die fortschrittlichste Technologie, da sie ein gutes Gleichgewicht zwischen Leistung und Verständnis bietet. Im Vergleich zu anderen Algorithmen sind Einfachheit, Stabilität und Stichprobeneffizienz die drei Hauptvorteile von PPO.
Vorteile von PPO
- Einfachheit: PPO kommt dem nahe, was TRPO macht, ohne so viele Berechnungen durchzuführen. Es verwendet eine Optimierung erster Ordnung (Clipping-Funktion), um die Richtlinienaktualisierung einzuschränken, während TRPO KL-Divergenzbeschränkungen außerhalb der Zielfunktion verwendet (Optimierung zweiter Ordnung). Im Vergleich zur TRPO-Methode ist die PPO-Methode relativ einfach zu implementieren und benötigt weniger Rechenzeit. Daher ist es bei groß angelegten Problemen günstiger und effizienter, PPO einzusetzen.
- Stabilität:Während andere Reinforcement-Learning-Algorithmen eine Hyperparameter-Optimierung erfordern, ist bei PPO dies nicht unbedingt erforderlich (ein Epsilon von 0,2 ist in den meisten Fällen ausreichend). Darüber hinaus erfordert PPO keine komplexen Optimierungstechniken. Es lässt sich mithilfe standardmäßiger Deep-Learning-Frameworks problemlos üben und auf eine breite Palette von Aufgaben verallgemeinern.
- Probeneffizienz:Die Stichprobeneffizienz gibt an, ob der Algorithmus mehr oder weniger Daten benötigt, um eine gute Richtlinie zu trainieren. PPO erreicht Probeneffizienz durch die Verwendung von Ersatzzielen. Durch das Substitutionsziel kann der PPO vermeiden, dass die neue Richtlinie zu stark von der alten abweicht. Die Clipping-Funktion reguliert die Richtlinienaktualisierung und verwendet die Trainingsdaten erneut. Die Stichprobeneffizienz ist besonders nützlich für komplexe und hochdimensionale Aufgaben, bei denen die Datenerfassung und -berechnung teuer sein kann.
Verweise
【1】https://en.wikipedia.org/wiki/Proximal_Policy_Optimization