HyperAIHyperAI
vor 2 Monaten

VNect: Echtzeit 3D-Pose-Schätzung von Menschen mit einer einzelnen RGB-Kamera

Dushyant Mehta; Srinath Sridhar; Oleksandr Sotnychenko; Helge Rhodin; Mohammad Shafiei; Hans-Peter Seidel; Weipeng Xu; Dan Casas; Christian Theobalt
VNect: Echtzeit 3D-Pose-Schätzung von Menschen mit einer einzelnen RGB-Kamera
Abstract

Wir präsentieren die erste Echtzeit-Methode zur Erfassung der vollständigen globalen 3D-Gestalt eines Menschen mit einer stabilen, zeitlich konsistenten Pose unter Verwendung einer einzelnen RGB-Kamera. Unser Ansatz kombiniert einen neuen, auf konvolutionellen neuronalen Netzen (CNN) basierenden Poseregressor mit einem kinematischen Skelettanpassungsverfahren. Unsere neuartige, vollkonvolutorische Poseformulierung regresst 2D- und 3D-Gelenkpositionen simultan in Echtzeit und erfordert keine eng zugeschnittenen Eingabebilder. Eine Echtzeit-Methode zur kinematischen Skelettanpassung nutzt die Ausgabe des CNNs, um zeitlich stabile 3D-Globale-Pose-Rekonstruktionen auf Basis eines kohärenten kinematischen Skeletts zu erzeugen. Dies macht unseren Ansatz zur ersten monokularen RGB-Methode, die in Echtzeitanwendungen wie der Steuerung von 3D-Charakteren eingesetzt werden kann – bisher wurden für solche Anwendungen ausschließlich spezialisierte RGB-D-Kameras verwendet. Die Genauigkeit unserer Methode ist quantitativ vergleichbar mit den besten Offline-Methoden zur monokular-RGB-basierten 3D-Pose-Schätzung. Unsere Ergebnisse sind qualitativ vergleichbar mit und manchmal sogar besser als Ergebnisse aus monokularen RGB-D-Ansätzen wie dem Kinect. Wir zeigen jedoch, dass unser Ansatz breiter anwendbar ist als Lösungen mit RGB-D-Kameras, d.h., er funktioniert auch für Außenszenen, Community-Videos und günstige RGB-Kameras von minderer Qualität.

VNect: Echtzeit 3D-Pose-Schätzung von Menschen mit einer einzelnen RGB-Kamera | Neueste Forschungsarbeiten | HyperAI