SAC-Flow: stichproben-effizientes Verstärkungslernen von flussbasierten Politiken durch geschwindigkeitsreparametrisierte sequenzielle Modellierung
Yixian Zhang Shu'ang Yu Tonghe Zhang Mo Guang Haojia Hui Kaiwen Long Yu Wang Chao Yu Wenbo Ding

Abstract
Die Schulung ausdrucksstarker, flussbasierter Politiken mittels off-policy Reinforcement Learning ist aufgrund von Gradientenpathologien im mehrschrittigen Aktionsprobenprozess bekanntermaßen instabil. Wir weisen diese Instabilität einer grundlegenden Verbindung zu: Der Flussverlauf ist algebraisch äquivalent einer residualen rekurrenten Berechnung und damit ebenso anfällig für verschwindende und explodierende Gradienten wie RNNs. Um dies zu beheben, reparametrisieren wir das Geschwindigkeitsnetzwerk anhand von Prinzipien moderner sequenzieller Modelle und stellen zwei stabile Architekturen vor: Flow-G, das eine gated Geschwindigkeit verwendet, und Flow-T, das eine decodierte Geschwindigkeit nutzt. Anschließend entwickeln wir einen praktikablen SAC-basierten Algorithmus, der durch einen geräuschverstärkten Verlauf ermöglicht wird und eine direkte end-to-end-Schulung dieser Politiken unterstützt. Unser Ansatz unterstützt sowohl vom Nullpunkt an als auch offline-zu-online-Lernen und erreicht Spitzenleistungen bei Benchmarks für kontinuierliche Steuerung und roboter-basierte Manipulation, wodurch übliche Workarounds wie Policy Distillation oder surrogate Ziele entfallen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.