Faster VoxelPose : Estimation en temps réel de la posture 3D humaine par projection orthographique

Bien que les méthodes basées sur les voxels aient obtenu des résultats prometteurs pour l'estimation 3D de la posture de plusieurs personnes à partir de plusieurs caméras, elles souffrent de charges computationnelles importantes, en particulier dans les scènes de grande taille. Nous proposons Faster VoxelPose afin de relever ce défi en re-projetant le volume de caractéristiques sur les trois plans bidimensionnels des coordonnées (xy, yz, xz), puis en estimant séparément les coordonnées X, Y et Z à partir de ces plans. Pour ce faire, nous localisons d'abord chaque personne à l'aide d'une boîte englobante 3D, en estimant d'abord une boîte 2D et sa hauteur à partir des caractéristiques projetées respectivement sur le plan xy et l'axe z. Ensuite, pour chaque personne, nous estimons les coordonnées partielles des articulations à partir des trois plans de coordonnées de manière séparée, avant de les fusionner afin d’obtenir la posture 3D finale. Cette méthode s'affranchit des coûteux réseaux de convolution 3D (3D-CNN) et améliore la vitesse de VoxelPose d’un facteur dix, tout en atteignant une précision compétitive par rapport aux méthodes de pointe, démontrant ainsi son potentiel pour les applications en temps réel.