Estimation de la pose 3D multi-personne à partir d'une vidéo monoculaire basée sur des réseaux duaux

L'estimation monulaire de la posture humaine en 3D a connu des progrès ces dernières années. La plupart des méthodes se concentrent sur des individus isolés, en estimant leurs postures dans un système de coordonnées centré sur la personne, c'est-à-dire basé sur le centre de la personne cible. Par conséquent, ces méthodes ne sont pas applicables à l'estimation de la posture en 3D pour plusieurs personnes, où des coordonnées absolues (par exemple, les coordonnées de la caméra) sont nécessaires. De plus, l'estimation de la posture pour plusieurs personnes est plus complexe que pour une seule personne, en raison des occultations inter-personnes et des interactions humaines rapprochées. Les méthodes existantes multi-personnes dites « top-down » dépendent de la détection des personnes (c'est-à-dire approche top-down), et souffrent donc des erreurs de détection, ce qui les empêche de produire une estimation fiable des postures dans des scènes multi-personnes. Parallèlement, les méthodes bottom-up existantes qui n'utilisent pas la détection des personnes ne sont pas affectées par les erreurs de détection, mais comme elles traitent toutes les personnes d'une scène simultanément, elles sont sujettes à des erreurs, particulièrement pour les personnes à petite échelle.Pour relever tous ces défis, nous proposons l'intégration des approches top-down et bottom-up afin d'exploiter leurs forces respectives. Notre réseau top-down estime les articulations humaines de toutes les personnes plutôt que d'une seule dans un patch d'image, ce qui le rend robuste aux boîtes englobantes potentiellement erronées. Notre réseau bottom-up intègre des cartes thermiques normalisées basées sur la détection humaine, permettant au réseau d'être plus robuste face aux variations d'échelle. Enfin, les postures 3D estimées par les réseaux top-down et bottom-up sont alimentées dans notre réseau d'intégration pour obtenir les postures 3D finales. Pour combler les écarts courants entre les données d'entraînement et celles de test, nous effectuons une optimisation lors du temps de test en affinant les postures 3D estimées grâce à une contrainte temporelle d'ordre supérieur, une perte de réprojection et des régularisations de longueur osseuse.Nos évaluations montrent l'efficacité de la méthode proposée. Le code source et les modèles sont disponibles : https://github.com/3dpose/3D-Multi-Person-Pose.