HyperAIHyperAI
il y a 2 mois

UniHPE : Vers une estimation unifiée de la posture humaine par apprentissage contrastif

Jiang, Zhongyu ; Chai, Wenhao ; Li, Lei ; Zhou, Zhuoran ; Yang, Cheng-Yen ; Hwang, Jenq-Neng
UniHPE : Vers une estimation unifiée de la posture humaine par apprentissage contrastif
Résumé

Ces derniers temps, un intérêt croissant se manifeste pour le développement de techniques de perception efficaces permettant de combiner des informations provenant de plusieurs modalités. Cela implique l'alignement des caractéristiques obtenues à partir de sources diverses afin d'optimiser la formation avec des ensembles de données plus importants et sous contraintes, tout en exploitant la richesse des informations contenues dans chaque modalité. L'estimation de la posture humaine 2D et 3D (HPE) sont deux tâches perceptuelles cruciales en vision par ordinateur, qui ont de nombreuses applications en aval, telles que la reconnaissance d'actions, l'interaction homme-machine, le suivi d'objets, etc. Néanmoins, il existe peu d'exemples où la corrélation entre les images et l'estimation de la posture humaine 2D/3D a été clairement étudiée à l'aide d'un paradigme contrastif. Dans cet article, nous proposons UniHPE, une chaîne de traitement unifiée pour l'estimation de la posture humaine, qui aligne les caractéristiques issues des trois modalités suivantes : estimation de la posture humaine 2D, estimation de la posture humaine 3D basée sur le relevage et estimation de la posture humaine 3D basée sur les images, au sein d'une même chaîne. Pour aligner simultanément plus de deux modalités, nous introduisons une nouvelle perte d'apprentissage contrastif basée sur les valeurs singulières, qui améliore davantage l'alignement entre différentes modalités et booste les performances. Dans notre évaluation, UniHPE obtient des métriques de performance remarquables : une erreur moyenne par joint (MPJPE) de $50{,}5$ mm sur le jeu de données Human3.6M et une erreur moyenne par joint après alignement procrustes (PAMPJPE) de $51{,}6$ mm sur le jeu de données 3DPW. Notre méthode proposée présente un potentiel considérable pour faire progresser le domaine de la vision par ordinateur et contribuer à diverses applications.