Command Palette
Search for a command to run...
DeepFuse: Ein IMU-orientiertes Netzwerk für die Echtzeit-3D-Ganzkörperpose-Schätzung aus Mehrseitenbildern
DeepFuse: Ein IMU-orientiertes Netzwerk für die Echtzeit-3D-Ganzkörperpose-Schätzung aus Mehrseitenbildern
Fuyang Huang Ailing Zeng Minhao Liu Qiuxia Lai Qiang Xu
Zusammenfassung
In diesem Paper stellen wir ein zweistufiges, vollständig 3D-Netzwerk namens \textbf{DeepFuse} vor, um die 3D-Gestenposition menschlicher Körper durch eine tiefe Fusion von körpergetragenen Inertialmessgeräte-(IMU-)Daten und Multiview-Bildern zu schätzen. Der erste Schritt dient der reinen visuellen Schätzung. Um die ursprüngliche Datenstruktur der Multiview-Eingaben zu bewahren, verwendet das visuelle Modul eine mehrkanalige Volumendarstellung als Datenrepräsentation und eine 3D-Soft-Argmax-Funktion als Aktivierungsschicht. Der zweite Schritt ist die IMU-Verfeinerungsstufe, die eine IMU-Knochen-Schicht einführt, um IMU- und visuelle Daten bereits auf Datenebene früher zu fusionieren. Ohne eine vorgegebene Skelett-Modellierung a priori zu benötigen, erreichen wir eine mittlere Gelenkfehlergröße von 28,9mm auf dem TotalCapture-Datensatz und 13,4mm auf dem Human3.6M-Datensatz gemäß Protokoll 1, wodurch das Stand der Technik erheblich übertroffen wird. Abschließend diskutieren wir experimentell die Wirksamkeit eines vollständig 3D-Netzwerks für die 3D-Gestenpositionsschätzung, was zukünftige Forschungsarbeiten unterstützen könnte.