HyperAIHyperAI
vor 7 Tagen

Live-Stream zeitlich eingebettete 3D Mensch-Körper-Pose- und -Form-Schätzung

Zhouping Wang, Sarah Ostadabbas
Live-Stream zeitlich eingebettete 3D Mensch-Körper-Pose- und -Form-Schätzung
Abstract

Die Schätzung von 3D-Körperhaltung und -form innerhalb einer zeitlichen Sequenz kann für das Verständnis menschlichen Verhaltens von entscheidender Bedeutung sein. Trotz der erheblichen Fortschritte in der Schätzung menschlicher Haltung in den letzten Jahren – die oft auf Einzelbildern oder Videos basieren – bleibt die Schätzung menschlicher Bewegung in Echtzeit-Streaming-Videos aufgrund der speziellen Anforderungen an Echtzeit-Ausgabe und zeitliche Konsistenz ein kaum erforschtes Gebiet. Um dieses Problem anzugehen, präsentieren wir eine temporärausgeprägte Methode zur Schätzung von 3D-Körperhaltung und -form (TePose), die die Genauigkeit und zeitliche Konsistenz der Haltungsschätzung in Echtzeit-Streaming-Videos verbessert. TePose nutzt vorherige Schätzungen als Bindeglied, um Fehler zurückzuführen und die Schätzung im aktuellen Frame zu verbessern, sowie, um die Korrespondenz zwischen Datenframes und früheren Vorhersagen zu lernen. Wir stellen ein mehrskaliges räumlich-zeitliches Graphen-Convolutional-Netzwerk als Bewegungsdiskriminators für die adversarische Trainingsstrategie vor, das auf Datensätzen ohne jegliche 3D-Label arbeitet. Außerdem schlagen wir eine sequenzielle Dateneingabe-Strategie vor, um die besonderen Anforderungen an die End-to-End-Datenverarbeitung in Streaming-Anwendungen zu erfüllen. Wir demonstrieren die Bedeutung jedes vorgeschlagenen Moduls durch umfangreiche Experimente. Die Ergebnisse belegen die Wirksamkeit von TePose auf weit verbreiteten Benchmark-Datensätzen mit state-of-the-art-Leistung.