vor 2 Monaten

V2V-PoseNet: Voxel-to-Voxel-Vorhersagenetzwerk für genaue 3D-Hand- und -Körperhaltungsschätzung aus einer einzelnen Tiefenkarte

Gyeongsik Moon; Ju Yong Chang; Kyoung Mu Lee

Abstract

Die meisten der bestehenden tiefenlernenbasierten Methoden zur 3D-Hand- und -Körperhaltungsschätzung aus einer einzelnen Tiefenkarte basieren auf einem gemeinsamen Framework, das eine 2D-Tiefenkarte verwendet und die 3D-Koordinaten von Schlüsselpunkten, wie Handgelenken oder Körperteilen, direkt durch 2D-Faltungsneuronale Netze (CNNs) regressiert. Das erste Schwachpunkt dieser Methode ist die Perspektivverzerrung in der 2D-Tiefenkarte. Obwohl die Tiefenkarte intrinsisch 3D-Daten sind, behandeln viele frühere Methoden Tiefenkarten als 2D-Bilder, was die Form des tatsächlichen Objekts durch die Projektion aus dem 3D- ins 2D-Raum verzerrt. Dies zwingt das Netzwerk, eine schätzungsweise perspektivverzerrungsinvariante Berechnung durchzuführen. Der zweite Schwachpunkt des herkömmlichen Ansatzes besteht darin, dass die direkte Regression von 3D-Koordinaten aus einem 2D-Bild eine hochgradig nichtlineare Abbildung ist, die das Lernverfahren erschwert.Um diese Schwächen zu überwinden, transformieren wir das Problem der 3D-Hand- und -Körperhaltungsschätzung aus einer einzelnen Tiefenkarte in eine Voxel-zu-Voxel-Vorhersage, die ein rastersches 3D-Gitter verwendet und für jeden Schlüsselpunkt die Wahrscheinlichkeit pro Voxel schätzt. Unser Modell wird als ein 3D-CNN konzipiert, das genaue Schätzungen liefert und gleichzeitig in Echtzeit betrieben werden kann. Unser System übertrifft vorherige Methoden in fast allen öffentlich zugänglichen Datensätzen zur 3D-Hand- und -Körperhaltungsschätzung und belegte den ersten Platz im HANDS 2017 frame-basierten Challenge zur Schätzung der 3D-Handhaltung. Der Quellcode ist unter https://github.com/mks0601/V2V-PoseNet_RELEASE verfügbar.