SimpleEgo: Vorhersage der wahrscheinlichen Körperform aus egozentrischer Kameraansicht

Unsere Arbeit befasst sich mit dem Problem der egozentrischen menschlichen Pose-Schätzung von nach unten gerichteten Kameras auf Kopfmontagegeräten (HMD). Dies stellt eine herausfordernde Situation dar, da Teile des Körpers häufig außerhalb des Bildes liegen oder verdeckt sind. Vorherige Lösungen minimieren dieses Problem durch den Einsatz von Fischaugenobjektiven, um einen breiteren Blickwinkel zu erfassen, was jedoch Hardware-Design-Probleme mit sich bringen kann. Sie prognostizieren zudem 2D-Wärmebilder pro Gelenk und heben diese in den 3D-Raum, um Selbstverdeckungen zu behandeln. Dies erfordert jedoch große Netzarchitekturen, die für ressourcenbeschränkte HMDs unpraktikabel sind. Wir schätzen die Pose aus Bildern, die mit konventionellen rektlinearen Objektiven aufgenommen wurden. Dies löst Hardware-Design-Probleme, bedeutet aber auch, dass Körperteile oft außerhalb des Rahmens liegen. Daher regressieren wir direkt wahrscheinlichkeitliche Gelenkdrehungen, die als Matrix-Fisher-Verteilungen für ein parametrisiertes Körpermodell dargestellt werden. Dies ermöglicht es uns, Pose-Unsicherheiten zu quantifizieren und außerhalb des Rahmens liegende oder verdeckte Gelenke zu erklären. Zudem entfällt dadurch die Notwendigkeit, 2D-Wärmebilder zu berechnen, und es können vereinfachte DNN-Architekturen verwendet werden, die weniger Rechenleistung benötigen. Angesichts der mangelnden egozentrischen Datensätze mit rektlinearen Objektiven führen wir den SynthEgo-Datensatz ein, einen synthetischen Datensatz mit 60.000 Stereo-Bildern, die eine hohe Vielfalt an Pose, Form, Kleidung und Hautfarbe aufweisen. Unser Ansatz erreicht für diese anspruchsvolle Konfiguration Stand der Technik-Ergebnisse und reduziert den mittleren pro-Gelenk-Positionierungsfehler insgesamt um 23 % und für den unteren Körperbereich um 58 %. Unsere Architektur verfügt zudem über achtmal weniger Parameter und läuft doppelt so schnell wie der aktuelle Stand der Technik. Experimente zeigen, dass das Training auf unserem synthetischen Datensatz eine gute Generalisierung auf realweltliche Bilder ohne Feinabstimmung ermöglicht.