TesseTrack : Suivi 3D articulé de plusieurs personnes entièrement apprentissable

Nous considérons la tâche d’estimation et de suivi de la pose 3D de plusieurs personnes observées à partir d’un nombre arbitraire de flux vidéo provenant de caméras. Nous proposons TesseTrack, une nouvelle approche du type « top-down » qui raisonne simultanément sur la reconstruction des articulations corporelles 3D et les associations entre individus dans l’espace et le temps, dans un cadre unique et entièrement apprenable. Au cœur de notre méthode se trouve une formulation originale spatio-temporelle opérant dans un espace de caractéristiques voxélisées commun, construit à partir de vues monocaméra ou multicaméra. Après une étape de détection de personnes, un réseau CNN 4D génère des représentations spécifiques à court terme pour chaque individu, qui sont ensuite associées au fil du temps par un correspondant différentiable. Ces descriptions liées sont ensuite fusionnées et déconvolues pour produire des poses 3D. Cette formulation conjointe spatio-temporelle se distingue des approches précédentes basées sur des stratégies par morceaux, qui traitaient séparément l’estimation 2D des poses, la transformation 2D→3D et le suivi 3D des poses comme des sous-problèmes indépendants, entraînant des erreurs accumulées lorsqu’ils sont résolus de manière isolée. En outre, contrairement aux méthodes antérieures, TesseTrack est robuste aux variations du nombre de vues caméra et obtient de très bons résultats même lorsque seule une seule vue est disponible au moment de l’inférence. Une évaluation quantitative de la précision de reconstruction 3D des poses sur des benchmarks standards montre des améliorations significatives par rapport à l’état de l’art. Une évaluation du suivi 3D de poses articulées pour plusieurs personnes dans notre nouveau cadre d’évaluation démontre l’avantage de TesseTrack par rapport à des baselines fortes.