Estimation de la posture 3D humaine sensible à l’anatomie par décomposition de posture basée sur les os

Dans ce travail, nous proposons une nouvelle approche pour l'estimation de la posture 3D humaine dans les vidéos. Au lieu de prédire directement les positions 3D des articulations, nous nous inspirons de l'anatomie du squelette humain et décomposons la tâche en deux sous-problèmes : la prédiction des directions des os et la prédiction des longueurs des os, à partir desquelles les positions 3D des articulations peuvent être entièrement déduites. Notre motivation repose sur le fait que les longueurs des os du squelette humain restent constantes au fil du temps. Cette propriété nous incite à développer des techniques efficaces permettant d’exploiter l’information globale présente dans toutes les trames d’une vidéo pour une prédiction précise des longueurs osseuses. Par ailleurs, pour le réseau de prédiction des directions des os, nous proposons une architecture entièrement convolutive avec des connexions en saut longues (long skip connections), qui permet de prédire hiérarchiquement les directions des différents os sans recourir à des unités mémoire coûteuses en temps telles que les réseaux récurrents (LSTM). Un nouveau critère de perte, appelé perte de décalage des articulations (joint shift loss), est également introduit afin de mieux lier l’entraînement des deux réseaux de prédiction (longueurs et directions). Enfin, nous intégrons un mécanisme d’attention implicite qui utilise les scores de visibilité des points clés 2D comme guidance supplémentaire, ce qui permet de réduire significativement l’ambiguïté de profondeur dans des poses particulièrement difficiles. Notre modèle complet obtient des performances supérieures aux résultats les plus avancés précédemment publiés sur les jeux de données Human3.6M et MPI-INF-3DHP, et une évaluation exhaustive confirme l’efficacité de notre approche.