UPose3D: Unsicherheitsbewusste 3D Mensch-Pose-Schätzung mit Kreuzansichts- und Zeitverlaufsmerkmalen

Wir stellen UPose3D vor, einen neuartigen Ansatz zur Mehransicht-3D-Menschenpose-Schätzung, der Herausforderungen hinsichtlich Genauigkeit und Skalierbarkeit adressiert. Unser Verfahren verbessert bestehende Pose-Schätzungsforschungsrahmen durch erhöhte Robustheit und Flexibilität, ohne direkte 3D-Anmerkungen zu erfordern. Im Kern unseres Ansatzes befindet sich ein Pose-Compiler-Modul, das Vorhersagen eines 2D-Keypoint-Schätzers, der auf einzelnen Bildern operiert, durch Ausnutzung von zeitlicher und zwischenkamerabasierter Information verfeinert. Unsere neuartige Cross-View-Fusionsstrategie ist skalierbar auf beliebig viele Kameras, während unsere Strategie zur Generierung synthetischer Daten eine Generalisierung über diverse Akteure, Szenen und Blickwinkel sicherstellt. Schließlich nutzt UPose3D die Vorhersage-Unsicherheit sowohl des 2D-Keypoint-Schätzers als auch des Pose-Compiler-Moduls. Dies gewährleistet Robustheit gegenüber Ausreißern und verrauschten Daten und führt zu state-of-the-art-Leistung in Out-of-Distribution-Szenarien. Zudem erreicht UPose3D in In-Distribution-Szenarien eine Leistung, die Methoden, die auf 3D-annotierten Daten basieren, in nichts nachsteht, und ist gleichzeitig die führende Methode unter allen Ansätzen, die ausschließlich auf 2D-Supervision beruhen.