SHARP: Segmentierung von Händen und Armen mittels Pseudo-Tiefe für verbesserte egozentrische 3D-Handpose-Schätzung und Aktionserkennung

Die Handhaltung stellt entscheidende Informationen für die Aktionserkennung aus der egozentrischen Perspektive dar, bei der der Benutzer mit Objekten interagiert. Wir schlagen vor, die egozentrische 3D-Handhaltungsbestimmung auf Basis von RGB-Bildern allein durch den Einsatz von Pseudo-Tiefenbildern zu verbessern. Indem wir fortschrittliche Techniken zur Tiefenschätzung aus einzelnen RGB-Bildern einbeziehen, erzeugen wir Pseudo-Tiefendarstellungen der Bildsequenzen und nutzen Wissensübertragung über Distanzen, um irrelevante Teile der Szene zu segmentieren. Die resultierenden Tiefenkarten werden anschließend als Segmentierungsmasken für die RGB-Bilder verwendet. Experimentelle Ergebnisse am H2O-Datensatz bestätigen die hohe Genauigkeit der geschätzten Haltung unserer Methode in einer Aktionserkennungsaufgabe. Die 3D-Handhaltung zusammen mit Informationen aus der Objekterkennung wird von einem transformerbasierten Aktionserkennungsnetzwerk verarbeitet, was eine Genauigkeit von 91,73 % ergibt und alle bisherigen StandesderTechnik-Methoden übertrifft. Die Schätzungen der 3D-Handhaltung erreichen mit einem mittleren Pose-Fehler von 28,66 mm eine wettbewerbsfähige Leistung im Vergleich zu existierenden Methoden. Diese Methode eröffnet neue Möglichkeiten zur Nutzung von Distanzinformationen in der egozentrischen 3D-Handhaltungsbestimmung ohne auf Tiefensensoren angewiesen zu sein.