Réseau hiérarchique d'attention consciente de la cinématique pour l'estimation de la posture humaine dans les vidéos

Les méthodes précédentes de estimation de posture humaine basées sur la vidéo ont obtenu des résultats prometteurs en exploitant les caractéristiques agrégées de cadres consécutifs. Toutefois, la plupart de ces approches compromettent la précision afin de réduire le tremblement (jitter), ou ne prennent pas suffisamment en compte les aspects temporels du mouvement humain. En outre, les occlusions augmentent l’incertitude entre cadres consécutifs, ce qui entraîne des résultats irréguliers. Pour résoudre ces problèmes, nous proposons une architecture qui exploite les caractéristiques cinématiques des points clés grâce aux composants suivants. Premièrement, nous capturons efficacement les caractéristiques temporelles en exploitant la vitesse et l’accélération de chaque point clé individuel. Deuxièmement, l’encodeur transformer hiérarchique proposé agrège les dépendances spatio-temporelles et affine la posture 2D ou 3D d’entrée estimée à partir d’estimateurs existants. Enfin, nous introduisons une supervision croisée en temps réel entre la posture d’entrée affinée issue de l’encodeur et la posture finale produite par notre décodeur, afin de permettre une optimisation conjointe. Nous présentons des résultats complets et validons l’efficacité de notre modèle sur diverses tâches : estimation de posture 2D, estimation de posture 3D, récupération de maillage corporel, et estimation de posture multi-humain avec annotations éparses. Notre code est disponible à l’adresse suivante : https://github.com/KyungMinJin/HANet.