Sur l’amélioration de l’estimation 3D de la posture humaine à partir d’une seule trame via des vidéos monochromatiques

La base fondamentale pour entraîner un réseau précis de estimation de posture 3D humaine réside dans la disponibilité d’un volume important de données d’entraînement riches en annotations. Néanmoins, l’obtention manuelle d’annotations riches et précises est, même si elle n’est pas impossible, fastidieuse et lente. Dans cet article, nous proposons d’exploiter des vidéos monoculaires afin de compléter le jeu de données d’entraînement pour les tâches d’estimation de posture 3D à partir d’image unique. Au départ, un modèle de base est entraîné à partir d’un petit ensemble d’annotations. En fixant certaines estimations fiables produites par ce modèle, notre méthode collecte automatiquement des annotations sur l’ensemble de la vidéo en résolvant le problème de complétion de trajectoire 3D. Ensuite, le modèle de base est réentraîné avec les annotations collectées afin d’apprendre de nouvelles postures. Nous évaluons notre méthode sur les jeux de données Human3.6M et MPI-INF-3DHP, largement utilisés dans la communauté. Comme le montrent les expériences, même avec seulement un petit ensemble d’annotations initiales, notre approche permet au modèle d’apprendre de nouvelles postures à partir de vidéos monoculaires non étiquetées, améliorant ainsi la précision du modèle de base d’environ 10 %. Contrairement aux approches précédentes, notre méthode ne dépend ni d’images multi-vues, ni d’annotations explicites de points clés 2D.