HyperAIHyperAI

Command Palette

Search for a command to run...

Unüberwachtes Lernen von Objektstruktur und -dynamik aus Videos

Matthias Minderer Chen Sun Ruben Villegas Forrester Cole Kevin Murphy Honglak Lee

Zusammenfassung

Die Extraktion und Vorhersage von Objektstruktur und Dynamik aus Videos ohne Aufsicht stellt eine große Herausforderung im maschinellen Lernen dar. Um dieser Herausforderung zu begegnen, verwenden wir eine bildbasierte Darstellung, die auf Schlüsselpunkten basiert, und lernen ein stochastisches Dynamikmodell dieser Schlüsselpunkte. Zukünftige Frames werden aus den Schlüsselpunkten und einem Referenzframe rekonstruiert. Durch das Modellieren der Dynamik im Koordinatenraum der Schlüsselpunkte erreichen wir stabiles Lernen und vermeiden die Verstärkung von Fehlern im Pixelraum. Unsere Methode verbessert sowohl die Pixel-Level-Videovorhersage als auch Downstream-Aufgaben, die eine objektorientierte Bewegungsdynamik erfordern. Wir evaluieren unser Modell anhand verschiedener Datensätze: eines Mehragentensportdatensatzes, des Human3.6M-Datensatzes und Datensätzen, die auf kontinuierlichen Kontrollaufgaben aus dem DeepMind Control Suite basieren. Die räumlich strukturierte Darstellung übertrifft unstrukturierte Darstellungen bei einer Reihe von bewegungsbezogenen Aufgaben wie Objektverfolgung, Aktionserkennung und Belohnungsvorhersage.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Unüberwachtes Lernen von Objektstruktur und -dynamik aus Videos | Paper | HyperAI