HyperAIHyperAI

Command Palette

Search for a command to run...

Richtlinienoptimierung mit bestraftem Punktwahrscheinlichkeitsabstand: Eine Alternative zur proximalen Richtlinienoptimierung

Xiangxiang Chu

Zusammenfassung

Als die erfolgreichste Variante und Verbesserung der Trust-Region-Policy-Optimierung (TRPO) wurde die Proximal-Policy-Optimierung (PPO) aufgrund mehrerer Vorteile wie effizienter Datenverwendung, einfacher Implementierung und guter Parallelität in verschiedenen Bereichen weit verbreitet. In dieser Arbeit wird ein erster Ordnungs Gradienten-Reinforcement-Learning-Algorithmus namens Policy-Optimization-with-Penalized-Point-Probability-Distance (POP3D) vorgeschlagen, der eine untere Schranke für das Quadrat der Gesamtvarianzdivergenz darstellt und eine weitere leistungsstarke Variante bildet. Zunächst behandeln wir die Nachteile einiger gängiger Algorithmen, die teilweise zur Motivation unserer Methode beigetragen haben. Anschließend beschreiben wir, wie diese Nachteile durch die Anwendung von POP3D überwunden werden können. Drittens untersuchen wir dessen Mechanismus aus der Perspektive des Lösungsmanifolds. Schließlich führen wir quantitative Vergleiche zwischen mehreren Stand-of-the-Art-Algorithmen anhand gemeinsamer Benchmarks durch. Die Simulationsergebnisse zeigen, dass POP3D im Vergleich zu PPO hoch wettbewerbsfähig ist. Darüber hinaus haben wir unseren Code unter https://github.com/paperwithcode/pop3d veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp