Suivi efficace en ligne de la pose 2D de plusieurs personnes avec des champs d'affinité spatio-temporels récurrents

Nous présentons une approche en ligne pour détecter et suivre efficacement et simultanément la posture 2D de plusieurs personnes dans une séquence vidéo. Nous nous appuyons sur la représentation des Champs d'Affinité de Parties (PAF) conçue pour les images statiques, et proposons une architecture capable d'encoder et de prédire des Champs d'Affinité Spatio-Temporels (STAF) à travers une séquence vidéo. En particulier, nous proposons une nouvelle topologie temporelle interconnectée entre les membres, qui peut gérer de manière cohérente les mouvements corporels d'une large gamme d'amplitudes. De plus, nous rendons l'approche globale récurrente, où le réseau intègre les cartes thermiques STAF des cadres précédents et estime celles du cadre actuel. Notre méthode utilise uniquement l'inférence et le suivi en ligne, et est actuellement la plus rapide et la plus précise des approches ascendantes qui reste invariante au temps de calcul en fonction du nombre de personnes présentes dans la scène et invariante à la précision en fonction du taux d'images par seconde de la caméra. En fonctionnant à environ 30 images par seconde sur un seul GPU à une seule échelle, elle obtient des résultats très compétitifs sur les benchmarks PoseTrack.