Réseaux conscients de l’occlusion pour l’estimation de la posture 3D humaine dans les vidéos

L’occlusion constitue un problème majeur dans l’estimation de la posture 3D d’un être humain à partir d’une vidéo monoscopique. Pour résoudre ce problème, nous proposons un cadre d’apprentissage profond sensible à l’occlusion. En exploitant des cartes de confiance 2D estimées pour les points clés ainsi qu’une contrainte de cohérence du flux optique, nous filtrons les estimations non fiables des points clés occlus. Lorsqu’une occlusion survient, nous disposons d’un ensemble incomplet de points clés 2D que nous introduisons dans nos réseaux de convolution temporelle 2D et 3D (2D et 3D TCN), qui imposent une lissité temporelle afin de reconstruire une posture 3D complète. En utilisant des points clés 2D incomplets, plutôt que des points complets mais erronés, nos réseaux sont moins sensibles aux erreurs d’estimation associées aux points clés occlus. L’entraînement du réseau 3D TCN sensible à l’occlusion nécessite des paires comprenant une posture 3D et une posture 2D, accompagnées d’étiquettes d’occlusion. Comme aucun jeu de données ne dispose de telles annotations, nous introduisons un modèle « Cylinder Man » pour approximer la position des parties du corps dans l’espace 3D. En projetant ce modèle sur un plan 2D depuis différentes angles de vue, nous obtenons et étiquetons les points clés occlus, générant ainsi une abondante quantité de données d’entraînement. Par ailleurs, nous utilisons ce modèle pour établir une contrainte de régularisation de posture, favorisant l’occlusion des estimations 2D des points clés peu fiables. Notre méthode surpasser les approches de pointe sur les jeux de données Human 3.6M et HumanEva-I.