Hand PointNet: 3D-Hand-Pose-Schätzung mithilfe von Punktmengen

Das Convolutional Neural Network (CNN) hat vielversprechende Ergebnisse bei der Schätzung der 3D-Handpose in Tiefenbildern gezeigt. Im Gegensatz zu bestehenden CNN-basierten Methoden zur Handpose-Schätzung, die entweder 2D-Bilder oder 3D-Volumina als Eingabe verwenden, verarbeitet unser vorgeschlagenes Hand PointNet direkt die 3D-Punktwolke, die die sichtbare Oberfläche der Hand modelliert, zur Regressionsanalyse der Pose. Unter Verwendung einer normalisierten Punktwolke als Eingabe ist unser vorgeschlagener Netzwerkansatz zur Handpose-Regression in der Lage, komplexe Handstrukturen zu erfassen und eine niedrigdimensionale Darstellung der 3D-Handpose genau zu schätzen. Um die Genauigkeit der Fingerspitzen weiter zu verbessern, haben wir ein Fingerspitzen-Verfeinerungsnetzwerk entworfen, das direkt die benachbarten Punkte der geschätzten Fingerspitzenposition als Eingabe nimmt, um die Position der Fingerspitze zu verfeinern. Experimente an drei anspruchsvollen Datensätzen zur Handpose zeigen, dass unsere vorgeschlagene Methode die derzeit besten Ansätze übertrifft.