HyperAIHyperAI
vor 2 Monaten

Unüberwachte 3D-Pose-Schätzung für hierarchische Tanzvideo-Erkennung

Xiaodan Hu; Narendra Ahuja
Unüberwachte 3D-Pose-Schätzung für hierarchische Tanzvideo-Erkennung
Abstract

Tanzexperten betrachten den Tanz oft als eine Hierarchie von Informationen, die von niedrigem Niveau (rohe Bilder, Bildsequenzen) über mittleres Niveau (menschliche Pose und Bewegungen der Körperteile) bis hin zu hohem Niveau (Tanzstil) reicht. Wir schlagen ein hierarchisches Framework zur Erkennung von Tanzvideos (Hierarchical Dance Video Recognition, HDVR) vor. HDVR schätzt 2D-Pose-Sequenzen, verfolgt Tänzer und schätzt anschließend gleichzeitig die entsprechenden 3D-Posen sowie die Parameter der 3D-zu-2D-Bildgebung, ohne dass dafür Wahrheitswerte für 3D-Posen erforderlich wären. Im Gegensatz zu den meisten Methoden, die sich auf eine einzelne Person konzentrieren, funktioniert unser Tracking auch bei mehreren Tänzern und unter Berücksichtigung von Verdeckungen. Aus den geschätzten 3D-Pose-Sequenzen extrahiert HDVR die Bewegungen der Körperteile und daraus den Tanzstil. Die resultierende hierarchische Tanzrepräsentation ist für Experten erklärbar. Um Rauschen und Unsicherheiten in der Interframe-Korrespondenz zu überwinden, setzen wir räumliche und zeitliche Bewegungsflüssigkeit sowie photometrische Kontinuität im Laufe der Zeit durch. Wir verwenden ein LSTM-Netzwerk, um 3D-Bewegungsuntersequenzen zu extrahieren, aus denen wir den Tanzstil erkennen. Für Experimente haben wir 154 Bewegungstypen von 16 Körperteilen identifiziert und einen neuen University of Illinois Dance (UID)-Datensatz erstellt, der 1143 Videoclips mit insgesamt 30 Stunden Material aus 9 Stilen enthält und mit Bewegungs- und Stilkennzeichnungen versehen wurde. Unsere experimentellen Ergebnisse zeigen, dass unsere Algorithmen die Standesder-Forschungsmethoden zur Schätzung von 3D-Posen übertreffen, was auch unsere Leistung bei der Tanzerkennung verbessert.