Heuristische schwach überwachte 3D-Pose-Schätzung von Menschen

Die monokulare 3D-Pose-Schätzung von RGB-Bildern hat in den letzten Jahren erhebliches Interesse geweckt. Allerdings hängen aktuelle Modelle von überwachtem Training mit 3D-Pose-Referenzdaten oder bekannten Pose-Priors für ihre Zielbereiche ab. 3D-Pose-Daten werden in der Regel mit Bewegungserfassungsgeräten gesammelt, was ihre Anwendbarkeit stark einschränkt. In dieser Arbeit präsentieren wir eine heuristische schwach überwachte 3D-Mensch-Poseschätzung (HW-HuP), um 3D-Posen zu schätzen, wenn keine Referenzdaten für die 3D-Posen verfügbar sind. HW-HuP lernt partielle Pose-Priors aus 3D-Mensch-Posedatensätzen und nutzt leicht zugängliche Beobachtungen aus dem Zielbereich, um die 3D-Pose und -Form in einem Optimierungs- und Regressionszyklus zu schätzen. Während des Trainings verwenden wir Tiefendaten zur schwachen Überwachung, jedoch nicht während der Inferenz. Wir zeigen, dass HW-HuP in zwei praktischen Szenarien, bei denen 3D-Pose-Daten schwer zu beschaffen sind – Menschenposes im Bett und Babyposes in freier Wildbahn – bedeutend bessere Ergebnisse als die besten bisherigen Modelle liefert. Darüber hinaus demonstrieren wir, dass HW-HuP auch auf öffentlichen Benchmarks vergleichbare Leistung zeigt wie die neuesten Modelle, selbst wenn diese auf 3D-Pose-Daten trainiert wurden.