Tiefenbasierte 3D-Handpose-Schätzung: Von aktuellen Erfolgen zu zukünftigen Zielen

In dieser Arbeit bemühen wir uns, zwei Fragen zu beantworten: Was ist der aktuelle Stand der 3D-Handpose-Schätzung aus Tiefenbildern? Und welche sind die nächsten Herausforderungen, die bewältigt werden müssen? Nach dem erfolgreichen Hands In the Million Challenge (HIM2017) untersuchen wir die zehn besten Stand-of-the-Art-Methoden in drei Aufgaben: 3D-Pose-Schätzung aus einzelnen Bildern, 3D-Handverfolgung und Handpose-Schätzung während der Objektinteraktion. Wir analysieren die Leistung verschiedener CNN-Architekturen im Hinblick auf Handform, Sichtbarkeit von Gelenken, Blickwinkel und Artikulationsverteilungen. Unsere Erkenntnisse umfassen:(1) Die isolierte 3D-Handpose-Schätzung erreicht geringe mittlere Fehler (10 mm) im Blickwinkelbereich von [70, 120] Grad, jedoch ist das Problem bei extremen Blickwinkeln noch weit davon entfernt, gelöst zu sein.(2) 3D-volumetrische Darstellungen übertrumpfen 2D-CNNs und fangen die räumliche Struktur der Tiefendaten besser ein.(3) Diskriminative Methoden verallgemeinern sich immer noch schlecht auf unbekannte Handformen.(4) Obwohl Gelenkoverschattungen für die meisten Methoden eine Herausforderung darstellen, kann durch explizites Modellieren von Strukturrestriktionen der Abstand zwischen den Fehlern an sichtbaren und verschatteten Gelenken erheblich verringert werden.