Kameraraum-Hand-Netz-Rekonstruktion mittels semantischer Aggregation und adaptiver 2D-1D-Registrierung

In den letzten Jahren wurden erhebliche Fortschritte bei der Rekonstruktion von 3D-Handmeshes erzielt. Dennoch bleibt die Rekonstruktion von Kamera-raum-3D-Informationen aus einer einzigen RGB-Bildaufnahme aufgrund der inhärenten 2D-zu-3D-Ambiguität herausfordernd. Um dieses Problem anzugehen, zerlegen wir die Rekonstruktion von Kamera-raum-3D-Meshes in zwei Teilprobleme: die Rekonstruktion des relativ zum Stamm (root) positionierten Meshes und die Rekonstruktion des Stammes selbst. Zunächst werden aus einem einzigen Eingabebild Gelenkpunkte und Silhouette extrahiert, um 2D-Hinweise für die 3D-Aufgaben bereitzustellen. Bei der Aufgabe der relativ zum Stamm positionierten Mesh-Rekonstruktion nutzen wir semantische Beziehungen zwischen den Gelenken, um aus den extrahierten 2D-Hinweisen ein 3D-Mesh zu generieren. Die dabei erzeugten 3D-Koordinaten des Meshes sind relativ zu einer Stammposition definiert, nämlich der Handgelenkposition. In der Aufgabe der Stamm-Rekonstruktion wird die Stammposition im Kamera-Raum durch Ausrichtung des generierten 3D-Meshes zurück zu den 2D-Hinweisen ermittelt, wodurch die vollständige Rekonstruktion des Kamera-raum-3D-Meshes abgeschlossen wird. Unser Ansatz ist neuartig, da er (1) explizit bekannte semantische Beziehungen zwischen den Gelenken nutzt und (2) 1D-Projektionen der Silhouette und des Mesh nutzt, um eine robuste Ausrichtung zu erreichen. Umfangreiche Experimente auf gängigen Datensätzen wie FreiHAND, RHD und Human3.6M zeigen, dass unsere Methode sowohl bei der Rekonstruktion des relativ zum Stamm positionierten Meshes als auch bei der Stamm-Rekonstruktion eine state-of-the-art-Leistung erzielt. Der Quellcode ist öffentlich verfügbar unter https://github.com/SeanChenxy/HandMesh.