il y a 17 jours

Combinaison de la détection et du suivi pour l'estimation de la posture humaine dans les vidéos

Manchen Wang, Joseph Tighe, Davide Modolo

Résumé

Nous proposons une nouvelle approche « haut vers le bas » pour résoudre le problème de l’estimation et du suivi de la posture humaine à plusieurs personnes dans les vidéos. Contrairement aux approches « haut vers le bas » existantes, notre méthode n’est pas limitée par la performance de son détecteur de personnes et est capable de prédire les postures de personnes non localisées. Cette capacité est obtenue en propagant les positions connues des personnes vers l’avant et vers l’arrière dans le temps, puis en recherchant des postures dans ces régions. Notre approche se compose de trois composants : (i) un réseau de suivi par clips (Clip Tracking Network), qui réalise simultanément la détection et le suivi des articulations corporelles sur de courtes séquences vidéo ; (ii) une chaîne de traitement vidéo (Video Tracking Pipeline), qui fusionne les tracklets de longueur fixe produits par le réseau de suivi par clips en trajectoires de longueur arbitraire ; et (iii) une procédure de fusion spatio-temporelle qui affine les positions des articulations grâce à des termes de lissage spatial et temporel. Grâce à la précision de notre réseau de suivi par clips et à notre procédure de fusion, notre méthode produit des prédictions d’articulations très précises et corrige efficacement les erreurs fréquentes dans des scénarios difficiles, tels que des personnes fortement entremêlées. Notre approche atteint des résultats de pointe tant pour la détection des articulations que pour le suivi, sur les deux jeux de données PoseTrack 2017 et 2018, et surpassant à la fois les approches « haut vers le bas » et « bas vers le haut ».