Machines de séquence de pose 3D récurrente

La récupération de la posture articulée humaine en 3D à partir de séquences d'images monoculaires est très complexe en raison des apparences diverses, des points de vue variés, des occultations et de l'ambiguïté inhérente à la posture 3D humaine dans les images monoculaires. Il est donc crucial d'exploiter les dépendances spatiales et temporelles à long terme entre les articulations du corps pour prédire avec précision les séquences de postures 3D. Les approches existantes conçoivent généralement manuellement des termes a priori élaborés et des contraintes cinématiques du corps humain pour capturer les structures, ce qui est souvent insuffisant pour exploiter toutes les structures intrinsèques et ne s'adapte pas à tous les scénarios. En revanche, cet article présente une Machine de Séquence de Posture 3D Récursive (RPSM) capable d'apprendre automatiquement la contrainte structurelle dépendante de l'image et le contexte temporel dépendant de la séquence grâce à un raffinement séquentiel multistage. À chaque étape, notre RPSM se compose de trois modules pour prédire les séquences de postures 3D en se basant sur les représentations de posture 2D précédemment apprises et sur les postures 3D : (i) un module de posture 2D extrayant les représentations de posture dépendantes de l'image, (ii) un module récurrent de posture 3D régressant les postures 3D et (iii) un module d'adaptation des caractéristiques servant d'interface entre le module (i) et le module (ii) afin de permettre la transformation des représentations du domaine 2D au domaine 3D. Ces trois modules sont ensuite intégrés dans un cadre de prédiction séquentielle pour affiner les postures prédites au cours de plusieurs étapes récurrentes. Des évaluations approfondies sur le jeu de données Human3.6M et HumanEva-I montrent que notre RPSM surpassent toutes les approches actuelles pour l'estimation de la posture 3D.