HyperAIHyperAI
vor einem Monat

Unüberwachtes Lernen von Objektstruktur und -dynamik aus Videos

Matthias Minderer; Chen Sun; Ruben Villegas; Forrester Cole; Kevin Murphy; Honglak Lee
Unüberwachtes Lernen von Objektstruktur und -dynamik aus Videos
Abstract

Die Extraktion und Vorhersage von Objektstruktur und Dynamik aus Videos ohne Aufsicht stellt eine große Herausforderung im maschinellen Lernen dar. Um dieser Herausforderung zu begegnen, verwenden wir eine bildbasierte Darstellung, die auf Schlüsselpunkten basiert, und lernen ein stochastisches Dynamikmodell dieser Schlüsselpunkte. Zukünftige Frames werden aus den Schlüsselpunkten und einem Referenzframe rekonstruiert. Durch das Modellieren der Dynamik im Koordinatenraum der Schlüsselpunkte erreichen wir stabiles Lernen und vermeiden die Verstärkung von Fehlern im Pixelraum. Unsere Methode verbessert sowohl die Pixel-Level-Videovorhersage als auch Downstream-Aufgaben, die eine objektorientierte Bewegungsdynamik erfordern. Wir evaluieren unser Modell anhand verschiedener Datensätze: eines Mehragentensportdatensatzes, des Human3.6M-Datensatzes und Datensätzen, die auf kontinuierlichen Kontrollaufgaben aus dem DeepMind Control Suite basieren. Die räumlich strukturierte Darstellung übertrifft unstrukturierte Darstellungen bei einer Reihe von bewegungsbezogenen Aufgaben wie Objektverfolgung, Aktionserkennung und Belohnungsvorhersage.