Estimation de la pose humaine 3D basée sur la diffusion avec agrégation multi-hypothèses

Dans cet article, une nouvelle méthode d'estimation de la posture 3D basée sur la diffusion (D3DP) avec un agrégation multi-hypothèses basée sur la réprojection articulaire (JPMA) est proposée pour l'estimation probabiliste de la posture 3D humaine. D'une part, le D3DP génère plusieurs hypothèses de postures 3D possibles à partir d'une seule observation 2D. Il diffuse progressivement les postures 3D de vérité terrain vers une distribution aléatoire et apprend un débruiteur conditionné par les points clés 2D pour restaurer les postures 3D non contaminées. La méthode D3DP proposée est compatible avec les estimateurs de posture 3D existants et permet aux utilisateurs d'équilibrer l'efficacité et la précision lors de l'inférence grâce à deux paramètres personnalisables. D'autre part, le JPMA est proposé pour assembler plusieurs hypothèses générées par le D3DP en une seule posture 3D pour une utilisation pratique. Il réprojette les hypothèses de postures 3D sur le plan caméra 2D, sélectionne la meilleure hypothèse articulaire par articulation en fonction des erreurs de réprojection, et combine les articulations sélectionnées dans la posture finale. L'agrégation proposée par le JPMA se fait au niveau des articulations et utilise des informations a priori en 2D, deux aspects qui ont été négligés par les approches précédentes. Des expériences approfondies sur les jeux de données Human3.6M et MPI-INF-3DHP montrent que notre méthode surpassent respectivement les approches déterministes et probabilistes de pointe actuelles de 1,5 % et 8,9 %. Le code source est disponible à l'adresse suivante : https://github.com/paTRICK-swk/D3DP.