HyperAIHyperAI

Command Palette

Search for a command to run...

Selbstüberwachtes Netzwerk-Distillation: Ein effektiver Ansatz zur Exploration in Umgebungen mit spärlichen Belohnungen

Matej Pecháč Michal Chovanec Igor Farkaš

Zusammenfassung

Verstärkendes Lernen kann Entscheidungsprobleme lösen und ein Agens trainieren, um sich in einer Umgebung gemäß einer vordefinierten Belohnungsfunktion zu verhalten. Allerdings wird ein solcher Ansatz sehr problematisch, wenn die Belohnung zu spärlich ist und das Agens während der Exploration der Umgebung nicht auf die Belohnung stößt. Eine mögliche Lösung für dieses Problem besteht darin, dem Agens eine intrinsische Motivation zu verleihen, die eine gezielte Exploration ermöglicht, bei der das Agens zufällig auch externe Belohnungen finden kann. Die Erkennung von Neuheit ist eine vielversprechende Richtung innerhalb der Forschung zu intrinsischer Motivation. Wir stellen Self-supervised Network Distillation (SND) vor, eine Klasse von Algorithmen zur intrinsischen Motivation, die den Differenzfehler zwischen einem Vorhersagemodell und einem Zielmodell als Indikator für Neuheit nutzt, wobei sowohl das Vorhersagemodell als auch das Zielmodell trainiert werden. Drei bestehende selbstüberwachte Methoden wurden hierzu adaptiert und experimentell an einem Satz von zehn Umgebungen getestet, die als besonders schwer zu erkunden gelten. Die Ergebnisse zeigen, dass unser Ansatz im Vergleich zu Baseline-Modellen innerhalb derselben Trainingszeit eine schnellere Leistungssteigerung und höhere externe Belohnungen erzielt, was auf eine verbesserte Exploration in Umgebungen mit sehr spärlicher Belohnung hindeutet. Zudem liefern die angewendeten analytischen Methoden wertvolle erklärende Einblicke in die Funktionsweise unserer vorgeschlagenen Modelle.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp