Selbstüberwachtes Netzwerk-Distillation: Ein effektiver Ansatz zur Exploration in Umgebungen mit spärlichen Belohnungen

Verstärkendes Lernen kann Entscheidungsprobleme lösen und ein Agens trainieren, um sich in einer Umgebung gemäß einer vordefinierten Belohnungsfunktion zu verhalten. Allerdings wird ein solcher Ansatz sehr problematisch, wenn die Belohnung zu spärlich ist und das Agens während der Exploration der Umgebung nicht auf die Belohnung stößt. Eine mögliche Lösung für dieses Problem besteht darin, dem Agens eine intrinsische Motivation zu verleihen, die eine gezielte Exploration ermöglicht, bei der das Agens zufällig auch externe Belohnungen finden kann. Die Erkennung von Neuheit ist eine vielversprechende Richtung innerhalb der Forschung zu intrinsischer Motivation. Wir stellen Self-supervised Network Distillation (SND) vor, eine Klasse von Algorithmen zur intrinsischen Motivation, die den Differenzfehler zwischen einem Vorhersagemodell und einem Zielmodell als Indikator für Neuheit nutzt, wobei sowohl das Vorhersagemodell als auch das Zielmodell trainiert werden. Drei bestehende selbstüberwachte Methoden wurden hierzu adaptiert und experimentell an einem Satz von zehn Umgebungen getestet, die als besonders schwer zu erkunden gelten. Die Ergebnisse zeigen, dass unser Ansatz im Vergleich zu Baseline-Modellen innerhalb derselben Trainingszeit eine schnellere Leistungssteigerung und höhere externe Belohnungen erzielt, was auf eine verbesserte Exploration in Umgebungen mit sehr spärlicher Belohnung hindeutet. Zudem liefern die angewendeten analytischen Methoden wertvolle erklärende Einblicke in die Funktionsweise unserer vorgeschlagenen Modelle.