Représentation Préservant la Structure Cinématique pour l'Estimation Non Supervisée de la Posture Humaine en 3D

L'estimation de la posture humaine en 3D à partir d'une image monoculaire a suscité une attention considérable, constituant une étape clé pour plusieurs applications centrées sur l'humain. Cependant, la généralisabilité des modèles d'estimation de posture humaine développés à l'aide de supervision sur des jeux de données à grande échelle en studio reste sujette à caution, car ces modèles ne parviennent souvent pas à des performances satisfaisantes dans des environnements naturels inconnus. Bien que des modèles faiblement supervisés aient été proposés pour remédier à ce défaut, les performances de tels modèles dépendent de la disponibilité d'une supervision appariée sur certaines tâches connexes, comme l'estimation de la posture en 2D ou les paires d'images multi-vues. En revanche, nous proposons un cadre novateur d'estimation de posture en 3D non supervisé préservant la structure cinématique, qui n'est pas limité par aucune supervision faible appariée ou non appariée. Notre cadre d'estimation de posture repose sur un ensemble minimal de connaissances a priori définissant la structure cinématique 3D sous-jacente, telles que les informations sur la connectivité des articulations squelettiques avec les rapports de longueur osseuse dans une échelle canonique fixe. Le modèle proposé utilise trois transformations différentiables consécutives nommées cinématique directe (forward-kinematics), projection caméra (camera-projection) et transformation carte spatiale (spatial-map transformation). Cette conception non seulement agit comme un goulot d'étranglement approprié stimulant une désentrelacement efficace de la posture mais également produit des représentations latentes interprétables évitant l'entraînement d'un plongement latent explicite vers la posture. De plus, sans recourir à un cadre adversarial instable, nous réutilisons le décodeur pour formuler une perte basée sur l'énergie, ce qui nous permet d'apprendre à partir de vidéos naturelles au-delà des conditions de laboratoire. Des expériences exhaustives montrent nos performances en pointe en estimation non supervisée et faiblement supervisée de la posture sur les jeux de données Human3.6M et MPI-INF-3DHP. Les résultats qualitatifs dans des environnements inconnus confirment davantage notre supériorité en termes de capacité généralisatrice.