HyperAIHyperAI
vor 4 Monaten

Unüberwachtes Lernen für physische Interaktion durch Videos Vorhersage

Chelsea Finn; Ian Goodfellow; Sergey Levine
Unüberwachtes Lernen für physische Interaktion durch Videos Vorhersage
Abstract

Eine zentrale Herausforderung für ein Agent, das lernt, mit der Welt zu interagieren, besteht darin, vorherzusagen, wie seine Aktionen die Objekte in seiner Umgebung beeinflussen. Viele bestehende Methoden zum Lernen der Dynamik physischer Interaktionen erfordern beschriftete Objektinformationen. Allerdings wird die Erhebung von beschrifteten Daten zunehmend unpraktisch, um das Lernen realweltlicher Interaktionen auf eine Vielzahl von Szenarien und Objekten zu skalieren. Um physische Objektbewegungen ohne Beschriftungen zu lernen, entwickeln wir ein aktionsbedingtes Video-Vorhersagemodell, das explizit Pixelbewegungen modelliert, indem es eine Verteilung über die Pixelbewegung aus früheren Frames vorhersagt. Da unser Modell die Bewegung explizit vorhersagt, ist es teilweise invariant gegenüber dem Objektauftritt, was es ermöglicht, auf bisher unbekannte Objekte zu verallgemeinern. Um Video-Vorhersagen für realweltliche interaktive Agenten zu erforschen, stellen wir außerdem einen Datensatz von 59.000 Robotinteraktionen vor, die Stoßbewegungen beinhalten und einen Testdatensatz mit neuen Objekten enthalten. In diesem Datensatz entspricht eine genaue Vorhersage von Videos unter Berücksichtigung der zukünftigen Aktionen des Roboters dem Lernen einer „visuellen Vorstellung“ verschiedener Zukunftsszenarien basierend auf verschiedenen Handlungsabläufen. Unsere Experimente zeigen, dass unser vorgeschlagenes Verfahren sowohl quantitativ als auch qualitativ genauere Video-Vorhersagen erzeugt im Vergleich zu früheren Methoden.