Pixelweise Regression: 3D-Handpose-Schätzung durch räumliche Darstellung und differenzierbaren Decoder

Die Schätzung der 3D-Handpose aus einem einzelnen Tiefenbild ist ein wesentlicher Bereich in der Computer Vision und der Mensch-Computer-Interaktion. Obwohl die Entwicklung von tiefen Lernmethoden die Genauigkeit erheblich verbessert hat, bleibt das Problem aufgrund der komplexen Struktur der menschlichen Hand schwierig zu lösen. Bestehende Methoden mit tiefem Lernen verlieren entweder räumliche Informationen über die Handstruktur oder fehlt ihnen eine direkte Überwachung der Gelenkkoordinaten. In dieser Arbeit schlagen wir eine neuartige pixelweise Regressionsmethode vor, die durch die Verwendung einer räumlichen Formdarstellung (SFR) und eines differenzierbaren Decoders (DD) diese beiden Probleme löst. Um unsere Methode anzuwenden, erstellen wir ein Modell, in dem wir eine spezielle SFR und den zugehörigen DD entwickeln, die die 3D-Gelenkkoordinaten in zwei Teile unterteilen: Ebenenkoordinaten und Tiefenkoordinaten. Diese werden jeweils durch zwei Module namens Ebenenregression (PR) und Tiefenregression (DR) behandelt. Wir führen ein Ablationsversuch durch, um zu zeigen, dass unsere vorgeschlagene Methode bessere Ergebnisse als frühere Methoden erzielt. Zudem untersuchen wir, wie verschiedene Trainingsstrategien die gelernten SFRs und die Ergebnisse beeinflussen. Die Experimente mit drei öffentlichen Datensätzen belegen, dass unser Modell mit den bestehenden state-of-the-art-Modellen vergleichbar ist und in einem davon der mittlere 3D-Gelenkfehler um 25 % reduziert werden kann.