Fusion monokularer Bilder und spärlicher IMU-Signale für die Echtzeit-Menschenbewegungserfassung

Entweder RGB-Bilder oder inertiale Signale wurden bisher für die Aufgabe der Bewegungserfassung (Motion Capture, mocap) verwendet, doch deren Kombination stellt ein neuartiges und interessantes Forschungsfeld dar. Wir gehen davon aus, dass die Kombination ergänzend wirkt und die inhärenten Schwierigkeiten einzelner Modalitäten überwinden kann, wie z. B. Verdeckungen, extreme Beleuchtungs- oder Texturbedingungen sowie Sichtbarkeitsverlust bei visueller mocap sowie globale Drifts bei inertialer mocap. Um dies zu erreichen, schlagen wir eine Methode vor, die monokulare Bilder und sparse IMUs (Inertial Measurement Units) zur Echtzeit-Bewegungserfassung von Menschen kombiniert. Unser Ansatz basiert auf einer dualen Koordinatstrategie, die es ermöglicht, die IMU-Signale mit unterschiedlichen Zielen in der Bewegungserfassung vollständig auszunutzen. Konkret umfasst eine Verzweigung die Transformation der IMU-Signale in das Kamerakoordinatensystem, um sie mit den Bilddaten zu fusionieren, während eine zweite Verzweigung aus den IMU-Signalen im Koordinatensystem des Körperstamms lernt, um die Körperpose präziser zu schätzen. Zudem wird ein versteckter Zustandsrückkopplungsmechanismus für beide Verzweigungen eingeführt, um deren jeweilige Schwächen bei extremen Eingabedaten auszugleichen. Dadurch kann unsere Methode nahtlos zwischen den beiden Signalarten wechseln oder sie je nach Anwendungsfall flexibel kombinieren, um eine robuste Bewegungserfassung zu gewährleisten. Die beiden Teilkomponenten unterstützen sich gegenseitig und verbessern die Ergebnisse unter unterschiedlichen Bedingungen. Quantitative und qualitative Ergebnisse zeigen, dass unsere Methode durch sorgfältige Gestaltung der Fusionsstrategie die aktuell besten Verfahren auf dem Gebiet der Vision-basierten, IMU-basierten sowie kombinierten Bewegungserfassung sowohl bei der Schätzung der globalen Orientierung als auch der lokalen Pose deutlich übertrifft. Die Quellcodes sind für Forschungszwecke unter https://shaohua-pan.github.io/robustcap-page/ verfügbar.