HyperAIHyperAI

Command Palette

Search for a command to run...

Maximale-Entropie-Reinforcement-Learning durch energiebasierte Normalizing Flows

Chen-Hao Chao∗1,2 Chien Feng∗1 Wei-Fang Sun2 Cheng-Kuang Lee2 Simon See2 Chun-Yi Lee†1

Zusammenfassung

Bestehende Maximum-Entropie (MaxEnt) Verstärkungslernalgorithmen (RL) für kontinuierliche Aktionen werden in der Regel auf Schauspieler-Kritiker-Frameworks basiert formuliert und durch abwechselnde Schritte von Richtlinienbewertung und Richtlinienverbesserung optimiert. Im Rahmen der Richtlinienbewertungsschritte wird der Kritiker aktualisiert, um die weiche Q-Funktion zu erfassen. In den Richtlinienverbesserungsschritten wird der Schauspieler entsprechend der aktualisierten weichen Q-Funktion angepasst. In dieser Arbeit stellen wir ein neues MaxEnt RL-Framework vor, das mit energiebasierten Normalizing Flows (EBFlow) modelliert ist. Dieses Framework integriert die Schritte der Richtlinienbewertung und -verbesserung, was zu einem einheitlichen Trainingsprozess führt. Unsere Methode ermöglicht die Berechnung der in der Richtlinienbewertungszielfunktion verwendeten weichen Wertfunktion ohne Monte-Carlo-Approximation. Darüber hinaus unterstützt diese Konzeption die Modellierung multimodaler Aktionenverteilungen und erleichtert gleichzeitig effizientes Aktionensampling. Um die Leistungsfähigkeit unserer Methode zu bewerten, führten wir Experimente auf dem MuJoCo-Benchmark-Suite-Datensatz und einer Reihe hochdimensionaler robotergetriebener Aufgaben durch, die im Omniverse Isaac Gym simuliert wurden. Die Auswertungsergebnisse zeigen, dass unsere Methode eine überlegene Leistung im Vergleich zu weit verbreiteten Referenzmethoden erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp