Lernen von latente Dynamiken für die Planung aus Pixeln

Die Planung hat sich bei Kontrollaufgaben mit bekannten Umgebungsdy namiken sehr erfolgreich erwiesen. Um die Planung in unbekannten Umgebungen zu nutzen, muss der Agent die Dynamik aus Interaktionen mit der Welt lernen. Das Lernen von Dynamikmodellen, die genügend genau für die Planung sind, stellt jedoch eine langjährige Herausforderung dar, insbesondere in bildbasierten Domänen. Wir schlagen das Deep Planning Network (PlaNet) vor, einen rein modellbasierten Agenten, der die Umgebungs dynamik aus Bildern lernt und durch schnelles Online-Planen im latente n Raum Aktionen wählt. Um hohe Leistung zu erzielen, muss das Dynamikmodell die kommenden Belohnungen für mehrere Zeitschritte genau vorhersagen. Wir gehen diesen Ansatz mit einem latenten Dynamikmodell an, das sowohl deterministische als auch stochastische Übergangskomponenten aufweist. Darüber hinaus schlagen wir ein Meh rschritt-Variationsinferenzziel vor, das wir latentes Overshooting nennen. Unter Verwendung ausschließlich von Pixelbeobachtungen löst unser Ag en t kontinuierliche Kontrollaufgaben mit Kontakt dynamik, teilweiser Beobachtbarkeit und dünnen Belohnungen, die schwieriger sind als die Aufgaben, die bisher durch Planung mit gelernten Modellen gelöst wurden. PlaNet benötigt erheblich weniger Episoden und erreicht eine endgültige Leistung, die nahe an oder manchmal höher als starke modelfreie Algorithmen ist.