HyperAIHyperAI
vor 2 Monaten

Dichte 3D-Regression für die Handhaltungsschätzung

Chengde Wan; Thomas Probst; Luc Van Gool; Angela Yao
Dichte 3D-Regression für die Handhaltungsschätzung
Abstract

Wir präsentieren eine einfache und effektive Methode zur Schätzung der 3D-Handpose aus einem einzelnen Tiefenbild. Im Gegensatz zu bisherigen Stand der Technik basierenden Methoden, die auf umfassender 3D-Regression aufbauen, arbeitet unsere Methode mit dichter pixelweiser Schätzung. Dies wird durch sorgfältige Gestaltungswahl bei der Pose-Parametrisierung erreicht, die sowohl 2D- als auch 3D-Eigenschaften des Tiefenbildes nutzt. Insbesondere zerlegen wir die Pose-Parameter in eine Reihe von pixelweisen Schätzungen, nämlich 2D-Wärmebilder (heat maps), 3D-Wärmebilder und Einheitsvektorfelder für 3D-Richtungen. Die 2D/3D-Gelenkwärmebilder und die 3D-Gelenkverschiebungen werden durch mehrfache Aufgaben netzwerk-kaskadenartig geschätzt, die von Anfang bis Ende trainiert werden. Die pixelweisen Schätzungen können direkt in ein Abstimmungsschema übersetzt werden. Anschließend wird eine Variante des Mean-Shift-Algorithmus verwendet, um lokale Abstimmungen zu aggregieren und Konsens zwischen der geschätzten 3D-Pose und den pixelweisen 2D- und 3D-Schätzungen durch Design zu erzwingen. Unsere Methode ist effizient und sehr genau. In den MSRA- und NYU-Handdatensätzen übertrifft unsere Methode alle bisherigen Stand der Technik Ansätze deutlich. Im ICVL-Handdatensatz erreicht unsere Methode eine ähnliche Genauigkeit wie das aktuell vorgeschlagene fast gesättigte Ergebnis und übertrifft verschiedene andere vorgeschlagene Methoden. Der Quellcode ist online verfügbar (\href{"https://github.com/melonwan/denseReg"}{\text{online}}).