ArtTrack : Suivi articulé de plusieurs personnes dans des conditions réelles

Dans cet article, nous proposons une approche pour le suivi articulé de plusieurs personnes dans des vidéos non contraintes. Notre point de départ est un modèle qui ressemble aux architectures existantes pour l'estimation de la posture en une seule image, mais qui est considérablement plus rapide. Nous atteignons cette performance de deux manières : (1) en simplifiant et en éclaircissant le graphe des relations entre les parties du corps et en exploitant les méthodes récentes pour une inférence plus rapide, et (2) en transférant une part substantielle des calculs à une architecture convolutive feed-forward capable de détecter et d'associer les articulations corporelles de la même personne même dans des environnements encombrés. Nous utilisons ce modèle pour générer des propositions de positions d'articulations corporelles et formulons le suivi articulé comme un regroupement spatio-temporel de ces propositions. Cela permet de résoudre conjointement le problème d'association pour toutes les personnes présentes dans la scène en propageant les preuves issues des détections solides au fil du temps et en imposant des contraintes selon lesquelles chaque proposition ne peut être attribuée qu'à une seule personne. Nous présentons des résultats sur un benchmark public MPII Human Pose et sur un nouveau jeu de données MPII Video Pose composé de séquences d'images avec plusieurs personnes. Nous démontrons que notre modèle atteint des résultats d'état de l'art tout en utilisant seulement une fraction du temps nécessaire et est capable d'exploiter l'information temporelle pour améliorer l'état de l'art dans les scènes bondées.