Gesamter Erfassung: 3D-Menschenpose-Schätzung durch Fusion von Video- und Inertialsensordaten

Wir präsentieren einen Algorithmus zur Fusion von Multi-Viewpoint-Video (MVV) mit Daten von Inertial Measurement Units (IMU), um die 3D-Gestenbewegung menschlicher Körper präzise zu schätzen. Zur Ableitung einer Pose-Embedding aus volumetrischen, probabilistischen Visual-Hull-Daten (PVH), die aus den MVV-Bildern abgeleitet werden, wird ein 3D-Convolutional Neural Network eingesetzt. Dieses Modell wird in ein Dual-Stream-Netzwerk integriert, das Pose-Embeddings aus MVV sowie eine Vorwärts-Kinematik-Lösung der IMU-Daten kombiniert. Vor der Fusion werden in beiden Streams jeweils zeitliche Modelle (LSTM) implementiert. Die hybride Pose-Schätzung mithilfe dieser komplementären Datensätze zeigt sich in der Aufhebung von Mehrdeutigkeiten innerhalb jeder Sensormodalität und führt zu einer verbesserten Genauigkeit gegenüber früheren Ansätzen. Ein weiterer Beitrag dieser Arbeit ist die Einführung eines neuen hybriden MVV-Datensatzes (TotalCapture), der Video-, IMU-Daten sowie eine skelettbasierte Ground-Truth aus einem kommerziellen Motion-Capture-System enthält. Der Datensatz ist online unter http://cvssp.org/data/totalcapture/ verfügbar.