xR-EgoPose: Egozentrische 3D-Menschliche-Pose-Aus-einer-HMD-Kamera
Wir präsentieren eine neue Lösung zur Schätzung von egozentrischen 3D-Körperhaltungen aus monokularen Bildern, die von einer nach unten gerichteten Fischaugenkamera aufgenommen werden, die am Rand eines auf dem Kopf getragenen Virtual-Reality-Geräts installiert ist. Diese ungewöhnliche Perspektive, nur 2 cm vom Gesicht des Benutzers entfernt, führt zu Bildern mit einzigartigem visuellem Erscheinungsbild, gekennzeichnet durch starke Selbstverdeckungen und ausgeprägte Perspektivverzerrungen, die zu einem erheblichen Unterschied in der Auflösung zwischen Ober- und Unterkörper führen. Unser Beitrag gliedert sich in zwei Teile. Erstens schlagen wir eine neue Encoder-Decoder-Architektur vor, die einen neuartigen Dual-Branch-Decoder enthält, der speziell entwickelt wurde, um die variierende Unsicherheit in den 2D-Gelenkpositionen zu berücksichtigen. Unsere quantitative Auswertung sowohl an synthetischen als auch an realen Datensätzen zeigt, dass unsere Strategie erhebliche Genauigkeitsverbesserungen gegenüber den besten bisher bekannten Ansätzen zur egozentrischen Pose-Schätzung bringt. Unser zweiter Beitrag besteht in einem neuen groß angelegten fotorealistischen synthetischen Datensatz – xR-EgoPose – der 383.000 Frames hochwertiger Renderings von Personen mit unterschiedlichen Hautfarben, Körperbauarten und Kleidungsstilen in verschiedenen Hintergründen und Beleuchtungsbedingungen bietet, während sie verschiedene Aktionen ausführen. Unsere Experimente zeigen, dass die hohe Variabilität unseres neuen synthetischen Trainingskorpus zu einer guten Generalisierung auf reale Aufnahmen und zu Spitzenwerten bei realen Datensätzen mit Ground Truth führt. Darüber hinaus zeigt eine Auswertung am Human3.6M-Benchmark, dass die Leistung unserer Methode mit den besten Ansätzen für das klassischere Problem der 3D-Menschpose-Schätzung aus dritter Person-Perspektive mithalten kann.