Sur la Triangulation en tant que Forme d'Auto-Supervision pour l'Estimation de la Posture Humaine en 3D

Les approches supervisées pour l'estimation de la posture 3D à partir d'images uniques sont remarquablement efficaces lorsque les données étiquetées sont abondantes. Cependant, étant donné que l'acquisition des étiquettes 3D de vérité terrain est laborieuse et chronophage, l'attention s'est récemment portée sur l'apprentissage semi-supervisé et faiblement supervisé. La génération d'une forme efficace de supervision avec peu d'annotations reste un défi majeur dans les scènes bondées. Dans cet article, nous proposons d'imposer des contraintes géométriques multivues par le biais d'une triangulation différentiable pondérée et de l'utiliser comme une forme d'autosupervision lorsqu'aucune étiquette n'est disponible. Nous formons donc un estimateur de posture 2D de telle manière que ses prédictions correspondent à la réprojection de la posture 3D triangulée et formons un réseau auxiliaire sur ces prédictions pour produire les postures 3D finales. Nous complétons la triangulation par un mécanisme de pondération qui atténue l'impact des prédictions bruyantes causées par l'automasquage ou le masquage par d'autres sujets. Nous démontrons l'efficacité de notre approche semi-supervisée sur les ensembles de données Human3.6M et MPI-INF-3DHP, ainsi que sur un nouveau jeu de données multivues et multipersonnes présentant des occlusions.