Retour à l'Optimisation : Estimation Zéro-Shot de la Pose 3D Humaine Basée sur la Diffusion

Les méthodes fondées sur l’apprentissage ont dominé les tâches d’estimation de posture 3D humaine (HPE), offrant des performances nettement supérieures à celles des méthodes traditionnelles basées sur l’optimisation sur la plupart des benchmarks. Toutefois, l’estimation de posture 3D dans des environnements réels (in the wild) reste un défi majeur pour les modèles fondés sur l’apprentissage, que ce soit avec des approches de levée 2D-3D, de transformation image-3D ou des méthodes basées sur la diffusion. En effet, les réseaux entraînés apprennent implicitement les paramètres intrinsèques de la caméra ainsi que les distributions de postures 3D propres à un domaine donné, et estiment les postures par moyenne statistique. À l’inverse, les méthodes basées sur l’optimisation traitent chaque cas de manière individuelle, permettant ainsi de prédire des postures humaines plus variées et complexes dans des environnements réels. En combinant les avantages des approches basées sur l’optimisation et celles fondées sur l’apprentissage, nous proposons une nouvelle pipeline, appelée \textbf{Ze}ro-shot \textbf{D}iffusion-based \textbf{O}ptimization (\textbf{ZeDO}), pour l’estimation de posture 3D humaine, afin de relever le défi de l’estimation 3D dans des conditions réelles et sur des domaines différents. Notre approche multi-hypothèses \textit{\textbf{ZeDO}} atteint des performances de pointe (SOTA) sur le jeu de données Human3.6M, avec un minMPJPE de $51,4$ mm, sans avoir besoin d’entraînement sur des paires 2D-3D ou image-3D. De plus, notre version mono-hypothèse \textit{\textbf{ZeDO}} obtient également des performances de pointe sur le jeu de données 3DPW, avec un PA-MPJPE de $40,3$ mm lors d’une évaluation croisée entre jeux de données, surpassant même certaines méthodes fondées sur l’apprentissage entraînées spécifiquement sur 3DPW.