FusePose: IMU-Vision-Sensorfusion in kinematischem Raum für parametrische menschliche Pose-Schätzung

Bei der Schätzung der 3D-Gestalt menschlicher Körper existieren herausfordernde Probleme, wie beispielsweise eine schlechte Leistung aufgrund von Verdeckung (Occlusion) und Selbstverdeckung. In jüngster Zeit gilt die Sensorfusion aus IMU- und Sichtdaten als vielversprechend, um diese Herausforderungen zu bewältigen. Allerdings nutzen bisherige Ansätze zur Fusion von IMU- und Sichtdaten – die heterogen sind – entweder die rohen IMU-Daten oder zuverlässige hochwertige visuelle Merkmale nicht ausreichend. Um eine effizientere Sensorfusion zu ermöglichen, stellen wir in dieser Arbeit einen Rahmen namens \emph{FusePose} unter Verwendung eines parametrischen menschlichen Kinematikmodells vor. Konkret aggregieren wir unterschiedliche Informationen aus IMU- oder Sichtdaten und führen drei charakteristische Ansätze zur Sensorfusion ein: NaiveFuse, KineFuse und AdaDeepFuse. NaiveFuse dient als grundlegender Ansatz, der lediglich vereinfachte IMU-Daten mit geschätzten 3D-Gestalten im euklidischen Raum fusioniert. Im kinematischen Raum integriert KineFuse kalibrierte und ausgerichtete rohe IMU-Daten mit in Parameter für 3D-Gestalten umgewandelten Werten. AdaDeepFuse erweitert diesen kinematischen Fusionsprozess weiter zu einem adaptiven und end-to-end trainierbaren Verfahren. Umfassende Experimente mit Ablationsstudien belegen die Plausibilität und Überlegenheit des vorgeschlagenen Ansatzes. Die Leistung der 3D-Gestaltsschätzung wird im Vergleich zur Basislinie deutlich verbessert. Auf dem Total Capture-Datensatz übertrifft KineFuse die bisherige State-of-the-Art-Methode, die ausschließlich IMU-Daten für die Testphase nutzt, um 8,6 %. AdaDeepFuse erreicht eine Verbesserung gegenüber der State-of-the-Art-Methode, die sowohl beim Training als auch beim Test IMU-Daten verwendet, um 8,5 %. Zudem validieren wir die Generalisierbarkeit unseres Rahmens anhand von Experimenten auf dem Human3.6M-Datensatz.