Regroupement de points clés guidé par décalage glouton pour l'estimation de la posture humaine

Nous proposons une approche descendante simple mais fiable, offrant un bon compromis entre précision et efficacité pour le problème de l'estimation de posture de plusieurs personnes. Étant donné une image, nous utilisons un réseau Hourglass afin d'estimer toutes les articulations provenant de différentes personnes de manière indistincte, ainsi que les décalages directeurs reliant les articulations adjacentes appartenant à la même personne. Ensuite, nous regroupons de manière gloutonne les candidats d'articulations en plusieurs postures humaines (le cas échéant), en exploitant les décalages directeurs prédits. Nous désignons ce processus par « regroupement glouton des articulations guidé par les décalages » (GOG). En outre, nous revisitons la méthode d'encodage-décodage pour les coordonnées des articulations multi-personnes et mettons en évidence certains faits importants affectant la précision. Des expériences ont démontré des améliorations significatives des performances apportées par les composants introduits. Notre approche est compétitive avec l'état de l'art sur le dataset exigeant COCO, dans des conditions comparables. Le code source et notre modèle pré-entraîné sont disponibles publiquement en ligne.