HyperAIHyperAI
vor 3 Monaten

Konsensbasierte Optimierung für die 3D-Menschenpose-Schätzung in Kamerakoordinaten

Diogo C Luvizon, Hedi Tabia, David Picard
Konsensbasierte Optimierung für die 3D-Menschenpose-Schätzung in Kamerakoordinaten
Abstract

Die 3D-Schätzung menschlicher Pose wird häufig als Aufgabe der Schätzung von 3D-Posen relativ zum Stammgelenk des Körpers betrachtet. Alternativ schlagen wir eine Methode zur 3D-Schätzung menschlicher Pose in Kamerakoordinaten vor, die eine effektive Kombination von 2D-annotierten Daten und 3D-Posen ermöglicht sowie eine unkomplizierte Verallgemeinerung auf mehrere Ansichten erlaubt. Dazu formulieren wir das Problem als Pose-Schätzung im Sichtkegelsraum, wobei die Absoluttiefe-Vorhersage und die Schätzung der relativen Gelenktiefen entkoppelt werden. Die endgültigen 3D-Vorhersagen werden in Kamerakoordinaten durch die inverse Kameraproyektion erzielt. Auf dieser Grundlage präsentieren wir außerdem einen konsensbasierten Optimierungsalgorithmus für Mehransichtsvorhersagen aus nichtkalibrierten Bildern, der lediglich eine einzige monokulare Trainingsprozedur erfordert. Obwohl unsere Methode indirekt an die intrinsischen Parameter der Trainingskamera gebunden ist, konvergiert sie dennoch für Kameras mit unterschiedlichen intrinsischen Parametern und liefert konsistente Schätzungen bis auf einen Skalierungsfaktor. Unsere Methode verbessert den Stand der Technik auf bekannten 3D-Menschenpose-Datensätzen und reduziert den Vorhersagefehler im gängigsten Benchmark um 32 %. Zudem berichten wir über unsere Ergebnisse in Bezug auf den absoluten Pose-Positionsfehler, wobei wir durchschnittlich 80 mm für monokulare Schätzungen und 51 mm für Mehransichtsschätzungen erreichen.