Modellbasierte 3D-Hand-Rekonstruktion mittels selbstüberwachtem Lernen

Die Rekonstruktion einer 3D-Hand aus einem einzigen RGB-Bild ist aufgrund der vielfältigen Handkonfigurationen und der Tiefenambiguität eine herausfordernde Aufgabe. Um eine zuverlässige 3D-Handrekonstruktion aus einem monokularen Bild zu erreichen, stützen sich die meisten modernsten Ansätze stark auf 3D-Anmerkungen im Trainingsstadium; deren Erstellung ist jedoch kostspielig. Um die Abhängigkeit von beschrifteten Trainingsdaten zu verringern, schlagen wir S2HAND vor – ein selbstüberwachtes Netzwerk zur 3D-Handrekonstruktion, das gleichzeitig Pose, Form, Textur und die Kameraperspektive schätzen kann. Konkret gewinnen wir geometrische Hinweise aus dem Eingabebild über leicht zugängliche 2D-Gewebepunkte, die mittels Detektion ermittelt wurden. Um ein präzises Handrekonstruktionsmodell aus diesen verrauschten geometrischen Hinweisen zu lernen, nutzen wir die Konsistenz zwischen 2D- und 3D-Darstellungen und stellen eine Reihe neuer Verlustfunktionen vor, um die Ausgaben des neuronalen Netzes zu rationalisieren. Erstmals zeigen wir die Machbarkeit, ein genaues 3D-Handrekonstruktionsnetzwerk ohne Rückgriff auf manuelle Annotationen zu trainieren. Unsere Experimente belegen, dass die vorgeschlagene Methode eine vergleichbare Leistung erzielt wie jüngere vollständig überwachte Methoden, dabei aber deutlich weniger Überwachungsdaten benötigt.