HyperAIHyperAI
vor 2 Monaten

Maximale-Entropie-Reinforcement-Learning durch energiebasierte Normalizing Flows

Chen-Hao Chao; Chien Feng; Wei-Fang Sun; Cheng-Kuang Lee; Simon See; Chun-Yi Lee
Maximale-Entropie-Reinforcement-Learning durch energiebasierte Normalizing Flows
Abstract

Bestehende Maximum-Entropie (MaxEnt) Verstärkungslernalgorithmen (RL) für kontinuierliche Aktionen werden in der Regel auf Schauspieler-Kritiker-Frameworks basiert formuliert und durch abwechselnde Schritte von Richtlinienbewertung und Richtlinienverbesserung optimiert. Im Rahmen der Richtlinienbewertungsschritte wird der Kritiker aktualisiert, um die weiche Q-Funktion zu erfassen. In den Richtlinienverbesserungsschritten wird der Schauspieler entsprechend der aktualisierten weichen Q-Funktion angepasst. In dieser Arbeit stellen wir ein neues MaxEnt RL-Framework vor, das mit energiebasierten Normalizing Flows (EBFlow) modelliert ist. Dieses Framework integriert die Schritte der Richtlinienbewertung und -verbesserung, was zu einem einheitlichen Trainingsprozess führt. Unsere Methode ermöglicht die Berechnung der in der Richtlinienbewertungszielfunktion verwendeten weichen Wertfunktion ohne Monte-Carlo-Approximation. Darüber hinaus unterstützt diese Konzeption die Modellierung multimodaler Aktionenverteilungen und erleichtert gleichzeitig effizientes Aktionensampling. Um die Leistungsfähigkeit unserer Methode zu bewerten, führten wir Experimente auf dem MuJoCo-Benchmark-Suite-Datensatz und einer Reihe hochdimensionaler robotergetriebener Aufgaben durch, die im Omniverse Isaac Gym simuliert wurden. Die Auswertungsergebnisse zeigen, dass unsere Methode eine überlegene Leistung im Vergleich zu weit verbreiteten Referenzmethoden erzielt.