Koopman Q-Learning: Offline Reinforcement Learning über Symmetrien der Dynamik

Offline-Verstärkungslernen nutzt große Datensätze, um Politiken zu trainieren, ohne Interaktionen mit der Umgebung erforderlich zu machen. Die gelernten Politiken können anschließend in realen Anwendungen eingesetzt werden, in denen Interaktionen kostspielig oder gefährlich sind. Aktuelle Algorithmen neigen dazu, sich übermäßig an das Trainingsdatenset anzupassen und leisten daher eine schlechte Leistung, wenn sie auf Umgebungen außerhalb der Verteilung des Trainingsdatensatzes übertragen werden. Wir zielen darauf ab, diese Einschränkungen zu überwinden, indem wir eine Koopman-Latentdarstellung lernen, die es uns ermöglicht, Symmetrien der zugrundeliegenden Dynamik des Systems zu erkennen. Diese Symmetrien werden anschließend genutzt, um das sonst statische Offline-Datenset während des Trainings zu erweitern; dies bildet einen neuartigen Rahmen für Datenaugmentation, der die Dynamik des Systems widerspiegelt und daher als Exploration des Phasenraums der Umgebung interpretiert werden kann. Um die Symmetrien zu ermitteln, verwenden wir die Koopman-Theorie, bei der nichtlineare Dynamiken durch einen linearen Operator auf dem Raum der Messfunktionen des Systems dargestellt werden, sodass Symmetrien der Dynamik direkt abgeleitet werden können. Wir präsentieren neuartige theoretische Ergebnisse zur Existenz und Beschaffenheit von Symmetrien, die für Steuerungssysteme wie Szenarien des Verstärkungslernens von Bedeutung sind. Darüber hinaus evaluieren wir unsere Methode empirisch an mehreren Standardbenchmarks für Offline-Verstärkungslernen, darunter D4RL, Metaworld und Robosuite, und finden, dass unsere Methode die state-of-the-art-Leistung von modellfreien Q-Lernverfahren konsistent verbessert.