CanonPose : Estimation de la pose 3D monulaire d'un humain en milieu réel par auto-supervision

L'estimation de la posture humaine à partir d'images uniques est un problème complexe en vision par ordinateur qui nécessite de grandes quantités de données d'entraînement étiquetées pour être résolu avec précision. Malheureusement, pour de nombreuses activités humaines (par exemple, les sports en plein air), de telles données d'entraînement n'existent pas et sont difficiles, voire impossibles à acquérir avec des systèmes traditionnels de capture de mouvement. Nous proposons une approche auto-supervisée qui apprend un estimateur de posture 3D à partir d'une image unique à partir de données multivues non étiquetées. À cette fin, nous exploitons les contraintes de cohérence multivues pour dissocier la posture 2D observée en posture 3D sous-jacente et rotation caméra. Contrairement à la plupart des méthodes existantes, nous n'avons pas besoin de caméras calibrées et pouvons donc apprendre à partir de caméras mobiles. Cependant, dans le cas d'un dispositif caméra statique, nous présentons une extension optionnelle pour inclure des rotations caméra relatives constantes sur plusieurs vues dans notre cadre. La clé du succès réside dans l'utilisation d'objectifs de reconstruction nouveaux et non biaisés qui mélangent les informations entre les vues et les échantillons d'entraînement. L'approche proposée est évaluée sur deux jeux de données de référence (Human3.6M et MPII-INF-3DHP) ainsi que sur le jeu de données SkiPose en conditions réelles.