HyperAIHyperAI

Command Palette

Search for a command to run...

vor 9 Tagen

SAC-Flow: stichproben-effizientes Verstärkungslernen von flussbasierten Politiken durch geschwindigkeitsreparametrisierte sequenzielle Modellierung

Yixian Zhang Shu'ang Yu Tonghe Zhang Mo Guang Haojia Hui Kaiwen Long Yu Wang Chao Yu Wenbo Ding

SAC-Flow: stichproben-effizientes Verstärkungslernen von flussbasierten Politiken durch geschwindigkeitsreparametrisierte sequenzielle Modellierung

Abstract

Die Schulung ausdrucksstarker, flussbasierter Politiken mittels off-policy Reinforcement Learning ist aufgrund von Gradientenpathologien im mehrschrittigen Aktionsprobenprozess bekanntermaßen instabil. Wir weisen diese Instabilität einer grundlegenden Verbindung zu: Der Flussverlauf ist algebraisch äquivalent einer residualen rekurrenten Berechnung und damit ebenso anfällig für verschwindende und explodierende Gradienten wie RNNs. Um dies zu beheben, reparametrisieren wir das Geschwindigkeitsnetzwerk anhand von Prinzipien moderner sequenzieller Modelle und stellen zwei stabile Architekturen vor: Flow-G, das eine gated Geschwindigkeit verwendet, und Flow-T, das eine decodierte Geschwindigkeit nutzt. Anschließend entwickeln wir einen praktikablen SAC-basierten Algorithmus, der durch einen geräuschverstärkten Verlauf ermöglicht wird und eine direkte end-to-end-Schulung dieser Politiken unterstützt. Unser Ansatz unterstützt sowohl vom Nullpunkt an als auch offline-zu-online-Lernen und erreicht Spitzenleistungen bei Benchmarks für kontinuierliche Steuerung und roboter-basierte Manipulation, wodurch übliche Workarounds wie Policy Distillation oder surrogate Ziele entfallen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SAC-Flow: stichproben-effizientes Verstärkungslernen von flussbasierten Politiken durch geschwindigkeitsreparametrisierte sequenzielle Modellierung | Forschungsarbeiten | HyperAI