Richtlinienoptimierung mit bestraftem Punktwahrscheinlichkeitsabstand: Eine Alternative zur proximalen Richtlinienoptimierung

Als die erfolgreichste Variante und Verbesserung der Trust-Region-Policy-Optimierung (TRPO) wurde die Proximal-Policy-Optimierung (PPO) aufgrund mehrerer Vorteile wie effizienter Datenverwendung, einfacher Implementierung und guter Parallelität in verschiedenen Bereichen weit verbreitet. In dieser Arbeit wird ein erster Ordnungs Gradienten-Reinforcement-Learning-Algorithmus namens Policy-Optimization-with-Penalized-Point-Probability-Distance (POP3D) vorgeschlagen, der eine untere Schranke für das Quadrat der Gesamtvarianzdivergenz darstellt und eine weitere leistungsstarke Variante bildet. Zunächst behandeln wir die Nachteile einiger gängiger Algorithmen, die teilweise zur Motivation unserer Methode beigetragen haben. Anschließend beschreiben wir, wie diese Nachteile durch die Anwendung von POP3D überwunden werden können. Drittens untersuchen wir dessen Mechanismus aus der Perspektive des Lösungsmanifolds. Schließlich führen wir quantitative Vergleiche zwischen mehreren Stand-of-the-Art-Algorithmen anhand gemeinsamer Benchmarks durch. Die Simulationsergebnisse zeigen, dass POP3D im Vergleich zu PPO hoch wettbewerbsfähig ist. Darüber hinaus haben wir unseren Code unter https://github.com/paperwithcode/pop3d veröffentlicht.