HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von latente Dynamiken für die Planung aus Pixeln

Danijar Hafner Timothy Lillicrap Ian Fischer Ruben Villegas David Ha Honglak Lee James Davidson

Zusammenfassung

Die Planung hat sich bei Kontrollaufgaben mit bekannten Umgebungsdy namiken sehr erfolgreich erwiesen. Um die Planung in unbekannten Umgebungen zu nutzen, muss der Agent die Dynamik aus Interaktionen mit der Welt lernen. Das Lernen von Dynamikmodellen, die genügend genau für die Planung sind, stellt jedoch eine langjährige Herausforderung dar, insbesondere in bildbasierten Domänen. Wir schlagen das Deep Planning Network (PlaNet) vor, einen rein modellbasierten Agenten, der die Umgebungs dynamik aus Bildern lernt und durch schnelles Online-Planen im latente n Raum Aktionen wählt. Um hohe Leistung zu erzielen, muss das Dynamikmodell die kommenden Belohnungen für mehrere Zeitschritte genau vorhersagen. Wir gehen diesen Ansatz mit einem latenten Dynamikmodell an, das sowohl deterministische als auch stochastische Übergangskomponenten aufweist. Darüber hinaus schlagen wir ein Meh rschritt-Variationsinferenzziel vor, das wir latentes Overshooting nennen. Unter Verwendung ausschließlich von Pixelbeobachtungen löst unser Ag en t kontinuierliche Kontrollaufgaben mit Kontakt dynamik, teilweiser Beobachtbarkeit und dünnen Belohnungen, die schwieriger sind als die Aufgaben, die bisher durch Planung mit gelernten Modellen gelöst wurden. PlaNet benötigt erheblich weniger Episoden und erreicht eine endgültige Leistung, die nahe an oder manchmal höher als starke modelfreie Algorithmen ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp