Estimation rapide et robuste de la posture 3D de plusieurs personnes à partir de multiples vues

Ce travail aborde le problème de l'estimation de la posture 3D pour plusieurs personnes à partir de quelques vues de caméras calibrées. Le principal défi de ce problème est de trouver les correspondances inter-vues parmi des prédictions de posture 2D bruyantes et incomplètes. La plupart des méthodes précédentes répondent à ce défi en raisonnant directement en 3D à l'aide d'un modèle de structure picturale, ce qui est inefficace en raison de l'espace d'états considérable. Nous proposons une approche rapide et robuste pour résoudre ce problème. Notre idée clé consiste à utiliser un algorithme d'appariement multi-voies pour regrouper les postures 2D détectées dans toutes les vues. Chaque cluster résultant encode les postures 2D de la même personne dans différentes vues et des correspondances cohérentes entre les points clés, à partir desquelles la posture 3D de chaque personne peut être efficacement inférée. L'algorithme d'appariement multi-voies basé sur l'optimisation convexe proposé est efficace et robuste face aux détections manquantes et fausses, sans connaître le nombre de personnes dans la scène. De plus, nous proposons de combiner des indices géométriques et d'apparence pour l'appariement inter-vues. L'approche proposée réalise des gains de performance significatifs par rapport à l'état de l'art (96,3 % contre 90,6 % et 96,9 % contre 88 % sur les jeux de données Campus et Shelf, respectivement), tout en étant efficace pour les applications en temps réel.