Command Palette
Search for a command to run...
Zur 3D-Schätzung menschlicher Körperhaltung in der Wildnis: Ein schwach überwachter Ansatz
Zur 3D-Schätzung menschlicher Körperhaltung in der Wildnis: Ein schwach überwachter Ansatz
Zhou Xingyi Huang Qixing Sun Xiao Xue Xiangyang Wei Yichen
Zusammenfassung
In diesem Artikel untersuchen wir die Aufgabe der 3D-Gesichtspunktschätzung am Menschen in natürlicher Umgebung (in the wild). Diese Aufgabe ist herausfordernd, da ausreichende Trainingsdaten fehlen: Bestehende Datensätze enthalten entweder Bilder aus natürlicher Umgebung mit 2D-Gesichtspunkten oder Laboraufnahmen mit 3D-Gesichtspunkten. Wir schlagen eine schwach überwachte Transfer-Lernmethode vor, die sowohl 2D- als auch 3D-Label in einem einheitlichen tiefen neuronalen Netzwerk nutzt, das eine zweistufige, kaskadenartige Architektur aufweist. Unser Netzwerk erweitert eine state-of-the-art-Unterarchitektur zur 2D-Gesichtspunktschätzung durch eine Unterarchitektur zur 3D-Tiefenschätzung. Im Gegensatz zu früheren zweistufigen Ansätzen, bei denen die beiden Unterarchitekturen sequenziell und getrennt trainiert werden, erfolgt unser Training end-to-end und nutzt die Korrelation zwischen der 2D-Gesichtspunktschätzung und der Tiefenschätzung vollständig aus. Durch gemeinsame Darstellungen werden tiefere Merkmale effizienter gelernt. Auf diese Weise können 3D-Gesichtspunkte aus kontrollierten Laborumgebungen auf Bilder in natürlicher Umgebung übertragen werden. Zusätzlich führen wir eine 3D-geometrische Beschränkung ein, um die Vorhersage der 3D-Gesichtspunkte zu regularisieren, die sich als wirksam erweist, wenn keine Ground-Truth-Tiefenlabels verfügbar sind. Unsere Methode erzielt wettbewerbsfähige Ergebnisse sowohl auf 2D- als auch auf 3D-Benchmarks.