HyperAIHyperAI
il y a 17 jours

FinePOSE : Estimation fine-grainée de la posture humaine 3D pilotée par des prompts via des modèles de diffusion

Jinglin Xu, Yijie Guo, Yuxin Peng
FinePOSE : Estimation fine-grainée de la posture humaine 3D pilotée par des prompts via des modèles de diffusion
Résumé

La tâche d'estimation de la posture humaine en 3D (3D HPE) vise à prédire les coordonnées des articulations humaines dans l'espace tridimensionnel à partir d'images ou de vidéos en 2D. Malgré les progrès récents des méthodes fondées sur l'apprentissage profond, celles-ci négligent généralement la capacité à exploiter conjointement les textes accessibles et les connaissances naturellement pertinentes relatives aux parties du corps humain, manquant ainsi une supervision implicite précieuse pour guider la tâche d'estimation 3D. En outre, les approches antérieures étudient souvent cette tâche du point de vue du corps humain dans son ensemble, en ignorant les indications fines cachées dans les différentes parties du corps. À cet effet, nous proposons un nouveau débruiteur piloté par des prompts à granularité fine basé sur un modèle de diffusion, nommé \textbf{FinePOSE}. Ce modèle se compose de trois blocs principaux qui améliorent le processus inverse du modèle de diffusion : (1) le bloc d'apprentissage de prompts part-aware à granularité fine (FPP) construit des prompts sensibles aux parties du corps avec une granularité fine en combinant des textes accessibles et des connaissances naturellement pertinentes sur les parties du corps, via des prompts apprenables, afin de modéliser cette guidance implicite ; (2) le bloc de communication prompt-posture à granularité fine (FPC) établit des communications précises entre les prompts appris et les poses pour améliorer la qualité du débruitage ; (3) le bloc de stylisation temporelle pilotée par les prompts (PTS) intègre l'embedding des prompts appris et les informations temporelles liées au niveau de bruit, permettant une adaptation dynamique à chaque étape de débruitage. Des expériences étendues sur des jeux de données publics d'estimation de posture humaine unique montrent que FinePOSE surpasser les méthodes de pointe. Nous étendons également FinePOSE à la tâche d'estimation de posture pour plusieurs personnes, obtenant un MPJPE moyen de 34,3 mm sur le jeu de données EgoHumans, ce qui démontre le potentiel de FinePOSE pour traiter des scénarios complexes impliquant plusieurs personnes. Le code source est disponible à l'adresse suivante : https://github.com/PKU-ICST-MIPL/FinePOSE_CVPR2024.

FinePOSE : Estimation fine-grainée de la posture humaine 3D pilotée par des prompts via des modèles de diffusion | Articles de recherche récents | HyperAI