Mo2Cap2: Echtzeit-Mobil-3D-Bewegungserfassung mit einer Kappe montierten Fisheyekamera

Wir schlagen den ersten Echtzeitansatz zur egozentrischen Schätzung der 3D-Körperhaltung von Menschen bei einer Vielzahl unbeschränkter Alltagsaktivitäten vor. Diese Anwendungssituation bringt eine einzigartige Reihe von Herausforderungen mit sich, wie z.B. die Mobilität der Hardwarekonfiguration und die Robustheit gegenüber langen Aufnahmesitzungen mit schneller Wiederherstellung nach Verfolgungsfehlern. Wir bewältigen diese Herausforderungen durch ein neuartiges, leichtgewichtiges Setup, das einen Standard-Baseballcap in ein Gerät zur hochwertigen Pose-Schätzung auf Basis einer einzelnen am Cap montierten Fisheyekamera umwandelt. Aus dem erfassten egozentrischen Live-Stream arbeitet unser CNN-basierter Ansatz für die 3D-Pose-Schätzung mit 60 Hz auf einem konsumgüterähnlichen GPU. Neben dem neuartigen Hardware-Setup sind unsere anderen Hauptleistungen: 1) ein großes Grundwahrheits-Trainingskorpus von oben herauf genommenen Fisheyebildern und 2) ein neuartiger entkoppelter Ansatz zur 3D-Pose-Schätzung, der die einzigartigen Eigenschaften des egozentrischen Blickwinkels berücksichtigt. Wie unsere Evaluierung zeigt, erreichen wir geringere 3D-Gelenkfehler sowie bessere 2D-Überlagerung als die bestehenden Baseline-Methoden.