vor 8 Tagen
Schwach beschriftete, gitterbasierte Handrekonstruktion mit Convolutional Netzwerken in natürlichen Umgebungen
Dominik Kulon, Riza Alp Güler, Iasonas Kokkinos, Michael Bronstein, Stefanos Zafeiriou

Abstract
Wir stellen eine einfache und effektive Netzarchitektur für die monokulare 3D-Handpose-Schätzung vor, die aus einem Bildencoder und einem Mesh-Faltungsdecoder besteht und durch einen direkten 3D-Hand-Mesh-Rekonstruktionsverlust trainiert wird. Wir trainieren unser Netzwerk, indem wir eine großskalige Datensammlung von Handaktionen aus YouTube-Videos sammeln und diese als Quelle schwacher Supervision nutzen. Unser schwach überwachtes, auf Mesh-Faltungen basierendes System übertrifft state-of-the-art-Methoden erheblich und halbiert die Fehler sogar auf dem in-the-wild-Benchmark. Die Datensammlung und zusätzliche Ressourcen sind unter https://arielai.com/mesh_hands verfügbar.