Représentation de coordonnées sensible à la distribution pour l'estimation de la posture humaine

Bien que la carte de chaleur soit de facto la représentation standard des coordonnées en estimation de posture humaine, elle n’a jamais été systématiquement étudiée dans la littérature, à notre connaissance. Ce travail comble cette lacune en explorant en profondeur la représentation des coordonnées, avec un accent particulier sur la carte de chaleur. De manière intéressante, nous constatons que le processus de décodage des cartes de chaleur prédites en coordonnées finales des articulations dans l’espace d’image original joue un rôle surprenant dans la performance de l’estimation de posture humaine — un aspect négligé jusqu’à présent. À la lumière de cette découverte, nous analysons plus en détail les limites du méthode de décodage standard largement utilisée par les méthodes existantes, et proposons une nouvelle méthode de décodage plus rigoureuse, prenant en compte la distribution des données. Parallèlement, nous améliorons le processus standard d’encodage des coordonnées (c’est-à-dire la transformation des coordonnées vérité terrain en cartes de chaleur) en générant des distributions de cartes de chaleur précises, afin d’assurer une formation du modèle sans biais. En combinant ces deux contributions, nous formulons une nouvelle méthode de représentation des coordonnées des points clés, nommée DARK (Distribution-Aware coordinate Representation of Keypoint). En tant que module plug-and-play indépendant du modèle, DARK améliore significativement la performance de divers modèles d’état de l’art en estimation de posture humaine. Des expériences étendues montrent que DARK obtient les meilleurs résultats sur deux benchmarks courants, MPII et COCO, validant de manière cohérente l’utilité et l’efficacité de notre nouvelle approche de représentation des coordonnées.