HyperAIHyperAI

Command Palette

Search for a command to run...

Partikelbasierte stochastische Politikoptimierung

Tie-Yan Liu Tao Qin Fangyun Wei Chang Liu Yuxuan Song Qiwei Ye

Zusammenfassung

Stochastische Politiken sind aufgrund ihrer hervorragenden Eigenschaften im Bereich der Exploration und der Unsicherheitsquantifizierung weit verbreitet eingesetzt. Die Modellierung der Politikverteilung mittels gemeinsamer Zustands-Aktions-Verteilung innerhalb der Exponentialfamilie ermöglicht eine hohe Flexibilität bei der Exploration und beim Lernen multimodaler Politiken und integriert zudem die probabilistische Perspektive des tiefen Verstärkungslernens (Reinforcement Learning, RL). Die Verbindung zwischen probabilistischer Inferenz und RL erlaubt es, Fortschritte in der probabilistischen Optimierung zu nutzen. Allerdings beschränken sich jüngere Ansätze auf die Minimierung der umgekehrten KL-Divergenz, die konfidenzorientiert ist und die Vorteile stochastischer Politiken möglicherweise beeinträchtigen kann. Um das volle Potenzial stochastischer Politiken auszuschöpfen und eine noch flexiblere Gestaltung zu ermöglichen, besteht ein starker Anreiz, bei der Optimierung der Politik unterschiedliche Aktualisierungsregeln zu betrachten. In diesem Paper stellen wir einen partikeln-basierten, probabilistischen Optimierungsansatz für Politiken, ParPI, vor, der die Anwendung einer breiten Klasse von Divergenzen oder Abständen erlaubt, wie beispielsweise f-Divergenzen und die Wasserstein-Distanz, die eine bessere probabilistische Eigenschaft der gelernten stochastischen Politik ermöglichen können. Experimente in sowohl online- als auch offline-Setting demonstrieren die Wirksamkeit des vorgeschlagenen Algorithmus sowie die charakteristischen Eigenschaften verschiedener Diskrepanzmaße für die Politikoptimierung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Partikelbasierte stochastische Politikoptimierung | Paper | HyperAI