vor 17 Tagen

DeepFuse: Ein IMU-orientiertes Netzwerk für die Echtzeit-3D-Ganzkörperpose-Schätzung aus Mehrseitenbildern

Fuyang Huang, Ailing Zeng, Minhao Liu, Qiuxia Lai, Qiang Xu

Abstract

In diesem Paper stellen wir ein zweistufiges, vollständig 3D-Netzwerk namens \textbf{DeepFuse} vor, um die 3D-Gestenposition menschlicher Körper durch eine tiefe Fusion von körpergetragenen Inertialmessgeräte-(IMU-)Daten und Multiview-Bildern zu schätzen. Der erste Schritt dient der reinen visuellen Schätzung. Um die ursprüngliche Datenstruktur der Multiview-Eingaben zu bewahren, verwendet das visuelle Modul eine mehrkanalige Volumendarstellung als Datenrepräsentation und eine 3D-Soft-Argmax-Funktion als Aktivierungsschicht. Der zweite Schritt ist die IMU-Verfeinerungsstufe, die eine IMU-Knochen-Schicht einführt, um IMU- und visuelle Daten bereits auf Datenebene früher zu fusionieren. Ohne eine vorgegebene Skelett-Modellierung a priori zu benötigen, erreichen wir eine mittlere Gelenkfehlergröße von $28,9\,\text{mm}$ auf dem TotalCapture-Datensatz und $13,4\,\text{mm}$ auf dem Human3.6M-Datensatz gemäß Protokoll 1, wodurch das Stand der Technik erheblich übertroffen wird. Abschließend diskutieren wir experimentell die Wirksamkeit eines vollständig 3D-Netzwerks für die 3D-Gestenpositionsschätzung, was zukünftige Forschungsarbeiten unterstützen könnte.