HyperAIHyperAI
vor 2 Monaten

Egocentrische Ganzkörperbewegungserfassung mit FisheyeViT und diffusionsbasierter Bewegungsverfeinerung

Wang, Jian ; Cao, Zhe ; Luvizon, Diogo ; Liu, Lingjie ; Sarkar, Kripasindhu ; Tang, Danhang ; Beeler, Thabo ; Theobalt, Christian
Egocentrische Ganzkörperbewegungserfassung mit FisheyeViT und diffusionsbasierter Bewegungsverfeinerung
Abstract

In dieser Arbeit untersuchen wir die egozentrische Ganzkörperbewegungserfassung mit einer einzelnen Fischaugenkamera, die gleichzeitig die Bewegungen des menschlichen Körpers und der Hände schätzt. Diese Aufgabe stellt aufgrund von drei Faktoren erhebliche Herausforderungen dar: dem Mangel an hochwertigen Datensätzen, der Verzerrung durch Fischaugenlinsen und der Selbstverdeckung des menschlichen Körpers. Um diesen Herausforderungen zu begegnen, schlagen wir einen neuen Ansatz vor, der FisheyeViT nutzt, um Fischaugenbildmerkmale zu extrahieren. Diese Merkmale werden anschließend in pixelgenaue 3D-Wärmekartenrepräsentationen konvertiert, um die 3D-Pose des menschlichen Körpers vorherzusagen. Für die Handverfolgung integrieren wir spezielle Handdetektions- und Handpose-Schätznetze zur Regression von 3D-Handposen. Schließlich entwickeln wir ein diffusionsbasiertes Ganzkörperbewegungsmodell als Vorwissen (prior model), um die geschätzte Ganzkörperbewegung unter Berücksichtigung von Gelenkunsicherheiten zu verfeinern. Um diese Netze zu trainieren, sammeln wir einen großen synthetischen Datensatz namens EgoWholeBody, der 840.000 hochwertige egozentrische Bilder umfasst, die bei einer vielfältigen Palette von Ganzkörperbewegungssequenzen aufgenommen wurden. Quantitative und qualitative Auswertungen zeigen die Effektivität unserer Methode bei der Erzeugung hochwertiger Ganzkörperbewegungsschätzungen aus einer einzelnen egozentrischen Kamera.