HyperAIHyperAI
vor 2 Monaten

Diffusionsbasierte 3D-Pose-Schätzung des Menschen mit Mehrfachhypothese-Aggregation

Shan, Wenkang ; Liu, Zhenhua ; Zhang, Xinfeng ; Wang, Zhao ; Han, Kai ; Wang, Shanshe ; Ma, Siwei ; Gao, Wen
Diffusionsbasierte 3D-Pose-Schätzung des Menschen mit Mehrfachhypothese-Aggregation
Abstract

In dieser Arbeit wird eine neuartige Methode zur diffusionsbasierten 3D-Pose-Schätzung (D3DP) mit einer jointweisen, reprojektionsbasierten Mehrhypothese-Aggregation (JPMA) für die probabilistische 3D-Menschpose-Schätzung vorgeschlagen. Einerseits erzeugt D3DP mehrere mögliche 3D-Pose-Hypothesen für eine einzelne 2D-Beobachtung. Es diffundiert die Ground-Truth-3D-Posen allmählich zu einer zufälligen Verteilung und lernt einen Denoiser, der anhand von 2D-Koordinatenpunkten konditioniert ist, um die unverfälschten 3D-Posen wiederherzustellen. Das vorgeschlagene D3DP ist mit existierenden 3D-Pose-Schätzern kompatibel und ermöglicht es den Benutzern durch zwei anpassbare Parameter während der Inferenz Effizienz und Genauigkeit zu balancieren. Andererseits wurde JPMA entwickelt, um mehrere von D3DP generierte Hypothesen in eine einzelne 3D-Pose für praktische Anwendungen zusammenzuführen. Es projiziert die 3D-Pose-Hypothesen auf die 2D-Kameraebene zurück, wählt die beste Hypothese Gelenk für Gelenk basierend auf den Reprojektionsfehlern aus und kombiniert die ausgewählten Gelenke zur endgültigen Pose. Der vorgeschlagene JPMA führt die Aggregation auf Gelenkebene durch und nutzt vorliegende 2D-Vorinformationen, was von früheren Ansätzen vernachlässigt wurde. Ausführliche Experimente mit den Datensätzen Human3.6M und MPI-INF-3DHP zeigen, dass unsere Methode sowohl deterministischen als auch probabilistischen Ansätzen des aktuellen Standes der Technik um jeweils 1,5 % und 8,9 % überlegen ist. Der Quellcode ist unter https://github.com/paTRICK-swk/D3DP verfügbar.