HyperAIHyperAI

Command Palette

Search for a command to run...

IQ-Learn: Inverse soft-Q Learning für Imitation

Divyansh Garg Shuvam Chakraborty Chris Cundy Jiaming Song Matthieu Geist Stefano Ermon

Zusammenfassung

Bei vielen sequenziellen Entscheidungsproblemen (z. B. Robotiksteuerung, Spielen, sequenzielle Vorhersage) ist menschliche oder Expertendaten verfügbar, die wertvolle Informationen zum jeweiligen Task enthalten. Dennoch kann die Nachahmungslernmethode (Imitation Learning, IL) aus einer geringen Menge an Expertendaten in hochdimensionalen Umgebungen mit komplexen Dynamiken herausfordernd sein. Die Verhaltensklonierung ist eine einfache, aufgrund ihrer einfachen Implementierbarkeit und stabilen Konvergenz weit verbreitete Methode, nutzt jedoch keinerlei Informationen über die Dynamik der Umgebung. Viele bestehende Ansätze, die Dynamikinformationen ausnutzen, sind in der Praxis schwer zu trainieren, da sie einen adversarialen Optimierungsprozess zwischen Belohnungs- und Politikapproximatoren erfordern oder verzerrte, hochvarianzige Gradientenschätzer verwenden. Wir stellen eine Methode für dynamikbewusstes IL vor, die adversariales Training vermeidet, indem sie eine einzige Q-Funktion lernt, die implizit sowohl Belohnung als auch Politik repräsentiert. Auf Standardbenchmarks zeigen die implizit gelernten Belohnungen eine hohe positive Korrelation mit den wahren Belohnungen, was zeigt, dass unsere Methode auch für das inverse Reinforcement Learning (IRL) verwendet werden kann. Unser Ansatz, Inverse soft-Q Learning (IQ-Learn), erreicht state-of-the-art Ergebnisse sowohl in offline- als auch in online-Imitation-Learning-Szenarien und übertrifft bestehende Methoden erheblich sowohl hinsichtlich der Anzahl erforderlicher Umgebungsinteraktionen als auch hinsichtlich der Skalierbarkeit in hochdimensionalen Räumen, oft um mehr als das Dreifache.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp