IQ-Learn: Inverse soft-Q Learning für Imitation

Bei vielen sequenziellen Entscheidungsproblemen (z. B. Robotiksteuerung, Spielen, sequenzielle Vorhersage) ist menschliche oder Expertendaten verfügbar, die wertvolle Informationen zum jeweiligen Task enthalten. Dennoch kann die Nachahmungslernmethode (Imitation Learning, IL) aus einer geringen Menge an Expertendaten in hochdimensionalen Umgebungen mit komplexen Dynamiken herausfordernd sein. Die Verhaltensklonierung ist eine einfache, aufgrund ihrer einfachen Implementierbarkeit und stabilen Konvergenz weit verbreitete Methode, nutzt jedoch keinerlei Informationen über die Dynamik der Umgebung. Viele bestehende Ansätze, die Dynamikinformationen ausnutzen, sind in der Praxis schwer zu trainieren, da sie einen adversarialen Optimierungsprozess zwischen Belohnungs- und Politikapproximatoren erfordern oder verzerrte, hochvarianzige Gradientenschätzer verwenden. Wir stellen eine Methode für dynamikbewusstes IL vor, die adversariales Training vermeidet, indem sie eine einzige Q-Funktion lernt, die implizit sowohl Belohnung als auch Politik repräsentiert. Auf Standardbenchmarks zeigen die implizit gelernten Belohnungen eine hohe positive Korrelation mit den wahren Belohnungen, was zeigt, dass unsere Methode auch für das inverse Reinforcement Learning (IRL) verwendet werden kann. Unser Ansatz, Inverse soft-Q Learning (IQ-Learn), erreicht state-of-the-art Ergebnisse sowohl in offline- als auch in online-Imitation-Learning-Szenarien und übertrifft bestehende Methoden erheblich sowohl hinsichtlich der Anzahl erforderlicher Umgebungsinteraktionen als auch hinsichtlich der Skalierbarkeit in hochdimensionalen Räumen, oft um mehr als das Dreifache.