HyperAIHyperAI

Command Palette

Search for a command to run...

Rekonzilierung räumlicher und zeitlicher Abstraktionen für die Zielrepräsentation

Mehdi Zadem Sergio Mover Sao Mai Nguyen

Zusammenfassung

Die Zielrepräsentation beeinflusst die Leistung von hierarchischen Verstärkungslernverfahren (Hierarchical Reinforcement Learning, HRL), indem sie das komplexe Lernproblem in leichter handhabbare Teilprobleme zerlegt. Neuere Studien zeigen, dass Darstellungen, die zeitlich abstrakte Dynamiken der Umwelt bewahren, erfolgreich bei der Lösung anspruchsvoller Aufgaben sind und theoretische Garantien für Optimalität liefern. Diese Ansätze skaliert jedoch nicht gut auf Aufgaben, bei denen die Umwelt-Dynamiken an Komplexität zunehmen, d. h., wenn die zeitlich abstrakten Übergangsrelationen von einer größeren Anzahl von Variablen abhängen. Andererseits haben andere Ansätze versucht, räumliche Abstraktion einzusetzen, um diese Probleme zu überwinden. Ihre Grenzen liegen in der Skalierbarkeit auf hochdimensionale Umgebungen sowie in der Abhängigkeit von vorherigem Wissen.In diesem Paper stellen wir einen neuartigen dreischichtigen HRL-Algorithmus vor, der auf unterschiedlichen Hierarchieebenen sowohl eine räumliche als auch eine zeitliche Zielabstraktion einführt. Wir führen eine theoretische Analyse der Regret-Grenzen der gelernten Politiken durch. Die Evaluierung erfolgt auf komplexen kontinuierlichen Steuerungsaufgaben und zeigt die Wirksamkeit der von diesem Ansatz gelernten räumlichen und zeitlichen Abstraktionen. Den Open-Source-Code finden Sie unter https://github.com/cosynus-lix/STAR.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Rekonzilierung räumlicher und zeitlicher Abstraktionen für die Zielrepräsentation | Paper | HyperAI