Appariement multi-vue (MVM) : Faciliter l'apprentissage de l'estimation 3D de posture pour plusieurs personnes à l'aide de vidéos d'individus figés dans leurs actions

Pour aborder le problème difficile de l'estimation 3D de la posture de plusieurs personnes à partir d'une seule image, nous proposons dans ce travail une méthode de correspondance multi-vues (MVM). La méthode MVM permet de générer des poses humaines 3D fiables à partir d'un grand ensemble de vidéos, appelé le jeu de données Mannequin, qui contient des personnes figées dans des postures imitant des mannequins. Grâce à une importante quantité de données vidéo du monde réel, étiquetées automatiquement par des annotations 3D produites par la méthode MVM, nous pouvons entraîner un réseau neuronal prenant une seule image en entrée pour l'estimation 3D de la posture de plusieurs personnes. La technologie centrale de la méthode MVM repose sur une alignement efficace des poses 2D issues de plusieurs vues d'une scène statique, caractérisée par des contraintes géométriques fortes. Notre objectif consiste à maximiser la cohérence mutuelle des poses 2D estimées sur plusieurs trames, en tenant compte simultanément des contraintes géométriques et des similarités d'apparence. Pour démontrer l'efficacité des annotations 3D fournies par la méthode MVM, nous menons des expériences sur les jeux de données 3DPW et MSCOCO, et montrons que notre approche atteint des performances de pointe.