HyperAIHyperAI
vor 9 Tagen

3D Human Pose Estimation mittels raumzeitlicher Netzwerke mit explizitem Training für Verdeckung

Yu Cheng, Bo Yang, Bo Wang, Robby T. Tan
3D Human Pose Estimation mittels raumzeitlicher Netzwerke mit explizitem Training für Verdeckung
Abstract

Die Schätzung von 3D-Posen aus einer monokularen Videosequenz bleibt weiterhin eine herausfordernde Aufgabe, trotz der erheblichen Fortschritte, die in den letzten Jahren erzielt wurden. Allgemein sinkt die Leistung bestehender Methoden, wenn die Zielperson zu klein oder zu groß erscheint, oder wenn ihre Bewegung zu schnell oder zu langsam im Vergleich zum Maßstab und der Geschwindigkeit der Trainingsdaten ist. Darüber hinaus sind, soweit uns bekannt, viele dieser Methoden nicht explizit für schwere Verdeckung (Occlusion) entworfen oder trainiert, was ihre Fähigkeit beeinträchtigt, solche Situationen zu bewältigen. Um diese Probleme anzugehen, stellen wir ein räumlich-zeitliches Netzwerk für robuste 3D-Menschenpose-Schätzung vor. Da Menschen in Videos unterschiedliche Skalen und diverse Bewegungsgeschwindigkeiten aufweisen können, wenden wir mehrskalige räumliche Merkmale zur Vorhersage von 2D-Gelenken oder Schlüsselpunkten in einzelnen Bildern an und mehrschrittige zeitliche Faltungsnetzwerke (Temporal Convolutional Networks, TCNs) zur Schätzung von 3D-Gelenken oder Schlüsselpunkten. Zudem entwerfen wir einen räumlich-zeitlichen Diskriminator, der auf Körperstrukturen sowie Gliedmaßenbewegungen basiert, um zu bewerten, ob die vorhergesagte Pose eine gültige Pose und eine gültige Bewegung darstellt. Während des Trainings maskieren wir explizit einige Schlüsselpunkte, um verschiedene Verdeckungsszenarien – von geringer bis schwerer Verdeckung – zu simulieren, sodass unser Netzwerk lernen kann, robust gegenüber unterschiedlichen Ausmaßen an Verdeckung zu werden. Da 3D-Referenzdaten begrenzt verfügbar sind, nutzen wir zusätzlich 2D-Videodaten, um unserer Architektur eine semi-supervised Lernfähigkeit zu verleihen. Experimente an öffentlichen Datensätzen bestätigen die Wirksamkeit unseres Ansatzes, und Ablationstudien zeigen die Stärken der einzelnen Submodule unseres Netzwerks.