Zur 3D-Pose-Schätzung von Menschen im Freien: Ein schwach überwachter Ansatz

In dieser Arbeit untersuchen wir die Aufgabe der 3D-Pose-Schätzung von Menschen in natürlichen Umgebungen (in the wild). Diese Aufgabe ist herausfordernd aufgrund des Mangels an Trainingsdaten, da existierende Datensätze entweder 2D-Pose in natürlichen Bildern oder 3D-Pose in Laborbildern enthalten.Wir schlagen eine schwach überwachte Transfer-Lernmethode vor, die gemischte 2D- und 3D-Labels in einem einheitlichen tiefen neuronalen Netzwerk verwendet, das eine zweistufige kaskadierte Struktur aufweist. Unser Netzwerk erweitert ein standesgemäßes 2D-Pose-Schätzungsunternetz durch ein 3D-Tiefenschätzungsunternetz. Im Gegensatz zu früheren zweistufigen Ansätzen, die die beiden Unter-netze sequentiell und getrennt trainieren, erfolgt unser Training von Anfang bis Ende (end-to-end) und nutzt die Korrelation zwischen den 2D-Pose- und Tiefenschätzungsunteraufgaben voll aus. Die tiefen Merkmale werden durch gemeinsame Repräsentationen besser gelernt. Auf diese Weise werden die 3D-Pose-Labels aus kontrollierten Laborumgebungen auf natürliche Bilder übertragen. Darüber hinaus führen wir eine 3D-geometrische Nebenbedingung ein, um die 3D-Pose-Vorhersage zu regulieren, was insbesondere bei Fehlen von Bodenwahrheits-Tiefenlabels effektiv ist. Unsere Methode erzielt wettbewerbsfähige Ergebnisse sowohl bei 2D- als auch bei 3D-Benchmarks.