HybridCap: Trägheitsunterstützte monokulare Erfassung anspruchsvoller menschlicher Bewegungen

Monokulare 3D-Motion-Capture (MoCap) ist für zahlreiche Anwendungen von Vorteil. Die Verwendung einer einzigen Kamera gelingt jedoch oft nicht bei der Bewältigung von Verdeckungen verschiedener Körperteile und ist daher auf die Erfassung relativ einfacher Bewegungen beschränkt. Wir präsentieren eine leichtgewichtige, hybride MoCap-Technik namens HybridCap, die die Kamera lediglich durch vier Inertial Measurement Units (IMUs) in einem Lern- und Optimierungsrahmen ergänzt. Zunächst setzen wir ein schwach überwachtes, hierarchisches Bewegungsinferenzmodul ein, das auf kooperativen Gated Recurrent Unit (GRU)-Blöcken basiert und als Glied-, Körper- und Wurzelverfolger sowie als inverse Kinematik-Löser fungiert. Unser Netzwerk verkleinert effektiv den Suchraum plausibler Bewegungen durch eine grob-zu-fein-orientierte Pose-Schätzung und bewältigt anspruchsvolle Bewegungen mit hoher Effizienz. Darüber hinaus entwickeln wir ein hybrides Optimierungsschema, das inertiale Rückmeldungen und visuelle Hinweise kombiniert, um die Tracking-Genauigkeit zu verbessern. Umfangreiche Experimente auf verschiedenen Datensätzen zeigen, dass HybridCap anspruchsvolle Bewegungen – von Fitnessübungen bis hin zu lateinamerikanischen Tänzen – robust erfassen kann. Zudem erreicht das Verfahren Echtzeit-Leistung bis zu 60 fps mit state-of-the-art Genauigkeit.