Partikelbasierte stochastische Politikoptimierung

Stochastische Politiken sind aufgrund ihrer hervorragenden Eigenschaften im Bereich der Exploration und der Unsicherheitsquantifizierung weit verbreitet eingesetzt. Die Modellierung der Politikverteilung mittels gemeinsamer Zustands-Aktions-Verteilung innerhalb der Exponentialfamilie ermöglicht eine hohe Flexibilität bei der Exploration und beim Lernen multimodaler Politiken und integriert zudem die probabilistische Perspektive des tiefen Verstärkungslernens (Reinforcement Learning, RL). Die Verbindung zwischen probabilistischer Inferenz und RL erlaubt es, Fortschritte in der probabilistischen Optimierung zu nutzen. Allerdings beschränken sich jüngere Ansätze auf die Minimierung der umgekehrten KL-Divergenz, die konfidenzorientiert ist und die Vorteile stochastischer Politiken möglicherweise beeinträchtigen kann. Um das volle Potenzial stochastischer Politiken auszuschöpfen und eine noch flexiblere Gestaltung zu ermöglichen, besteht ein starker Anreiz, bei der Optimierung der Politik unterschiedliche Aktualisierungsregeln zu betrachten. In diesem Paper stellen wir einen partikeln-basierten, probabilistischen Optimierungsansatz für Politiken, ParPI, vor, der die Anwendung einer breiten Klasse von Divergenzen oder Abständen erlaubt, wie beispielsweise f-Divergenzen und die Wasserstein-Distanz, die eine bessere probabilistische Eigenschaft der gelernten stochastischen Politik ermöglichen können. Experimente in sowohl online- als auch offline-Setting demonstrieren die Wirksamkeit des vorgeschlagenen Algorithmus sowie die charakteristischen Eigenschaften verschiedener Diskrepanzmaße für die Politikoptimierung.