Modellbasierte Offline-Verstärkendes Lernen mit pessimistisch modulierter Dynamiküberzeugung

Modellbasierte Offline-Verstärkendes Lernen (Reinforcement Learning, RL) zielt darauf ab, eine hochbelohnte Politik zu finden, indem ein zuvor gesammeltes statisches Datenset und ein Dynamikmodell genutzt werden. Während das Dynamikmodell durch Wiederverwendung des statischen Datensets gelernt wird, könnte dessen Generalisierungsfähigkeit die Politiklernung fördern, sofern sie angemessen genutzt wird. Dazu schlagen mehrere Arbeiten vor, die Unsicherheit der vorhergesagten Dynamik zu quantifizieren und diese explizit zur Bestrafung der Belohnung zu verwenden. Allerdings unterscheiden sich Dynamik und Belohnung im Kontext von Markov-Entscheidungsprozessen (MDP) grundlegend, weshalb die Beeinflussung der Dynamikunsicherheit durch Belohnungsbestrafung unerwartete Kompromisse zwischen Modellnutzung und Risikominimierung nach sich ziehen kann. In dieser Arbeit behalten wir stattdessen eine Glaubwürdigkeitsverteilung über die Dynamik bei und bewerten/optimieren die Politik durch verzerrte Stichproben aus dieser Glaubwürdigkeitsverteilung. Das Stichprobenverfahren, das einer pessimistischen Ausrichtung folgt, leitet sich aus einer alternierenden Markov-Spiel-Formulierung des Offline-RL ab. Wir zeigen formal, dass die verzerrte Stichprobenziehung eine aktualisierte Dynamik-Glaubwürdigkeitsverteilung mit einer politikabhängigen Umgewichtungsfaktor hervorruft, die als Pessimismus-gesteuerte Dynamik-Glaubwürdigkeitsverteilung (Pessimism-Modulated Dynamics Belief) bezeichnet wird. Zur Verbesserung der Politik entwickeln wir einen iterativen, regulierten Politik-Optimierungsalgorithmus für das Spiel, der unter bestimmten Bedingungen eine monoton steigende Verbesserung garantiert. Um die Praktikabilität zu gewährleisten, leiten wir weiterhin einen Offline-RL-Algorithmus ab, der die Lösung approximativ findet. Empirische Ergebnisse zeigen, dass der vorgeschlagene Ansatz auf einer Vielzahl von Benchmark-Aufgaben eine state-of-the-art-Leistung erzielt.