Modèles à une étape prenant en compte la distribution pour l'estimation de la pose 3D multi-personne

Dans cet article, nous présentons un nouveau modèle Distribution-Aware Single-stage (DAS) pour aborder le problème complexe de l'estimation de la posture 3D de plusieurs personnes. Contrairement aux méthodes existantes basées sur une approche descendante (top-down) ou ascendante (bottom-up), le modèle DAS proposé localise simultanément les positions des personnes et leurs articulations corporelles correspondantes dans l'espace caméra 3D en une seule passe. Cela conduit à une pipeline simplifiée avec une efficacité accrue. De plus, DAS apprend la distribution réelle des articulations corporelles pour la régression de leurs positions, plutôt que d'effectuer une hypothèse simple laplacienne ou gaussienne comme dans les travaux précédents. Cette approche fournit des a priori précieux pour les prédictions du modèle, ce qui améliore le schéma basé sur la régression pour atteindre des performances compétitives comparables à celles des méthodes volumétriques. En outre, DAS utilise une stratégie de mise à jour récursive pour progressivement s'approcher de l'objectif de régression, atténuant ainsi la difficulté d'optimisation et améliorant davantage les performances de régression. Le modèle DAS est mis en œuvre avec un réseau neuronal convolutif entièrement convolutionnel et est capable d'apprentissage end-to-end. Des expériences exhaustives sur les bancs d'essai CMU Panoptic et MuPoTS-3D démontrent l'efficacité supérieure du modèle DAS proposé, notamment une accélération de 1,5 fois par rapport au meilleur modèle précédent, ainsi que sa précision de pointe pour l'estimation de la posture 3D de plusieurs personnes.