HyperAIHyperAI
il y a 17 jours

Pose humaine en tant que tokens compositionnels

Zigang Geng, Chunyu Wang, Yixuan Wei, Ze Liu, Houqiang Li, Han Hu
Pose humaine en tant que tokens compositionnels
Résumé

La posture humaine est généralement représentée par un vecteur de coordonnées des articulations du corps ou par des cartes de chaleur (heatmaps) associées à ces articulations. Bien que cette approche soit simple à traiter, elle permet d’obtenir des estimations de posture irréalistes en raison du manque de modélisation des dépendances entre les articulations. Dans cet article, nous proposons une représentation structurée, nommée Pose as Compositional Tokens (PCT), afin d’explorer ces dépendances entre articulations. Cette représentation décrit une posture à l’aide de M jetons discrets, chacun caractérisant une sous-structure composée de plusieurs articulations interdépendantes. La conception composante permet d’atteindre une erreur de reconstruction faible à un coût computationnel réduit. Ensuite, nous reformulons la tâche d’estimation de posture comme une tâche de classification. Plus précisément, nous apprenons un classifieur capable de prédire les catégories des M jetons à partir d’une image. Un réseau décodeur pré-entraîné est ensuite utilisé pour reconstruire la posture à partir des jetons, sans nécessiter de post-traitement supplémentaire. Nous démontrons que notre méthode obtient des résultats d’estimation de posture supérieurs ou comparables à ceux des méthodes existantes dans des scénarios généraux, tout en restant performante même en cas d’occlusion, phénomène fréquent dans les applications pratiques. Le code source et les modèles sont disponibles publiquement à l’adresse suivante : https://github.com/Gengzigang/PCT.