Estimation monulaire de la posture humaine 3D dans des conditions réelles à l'aide d'une supervision CNN améliorée

Nous proposons une approche basée sur les CNN (Convolutional Neural Networks) pour l'estimation de la posture du corps humain en 3D à partir d'images RGB uniques, qui vise à résoudre le problème de la faible généralisabilité des modèles formés uniquement sur les données de posture 3D publiquement disponibles et fortement limitées. En utilisant uniquement les données de posture 3D existantes et les données de posture 2D, nous démontrons des performances de pointe sur des benchmarks établis grâce au transfert des caractéristiques apprises, tout en généralisant aux scènes naturelles. Nous introduisons également un nouveau ensemble d'apprentissage pour l'estimation de la posture du corps humain à partir d'images monoculaires de personnes réelles, dont la vérité terrain est capturée avec un système de capture de mouvement sans marqueurs multicaméra. Cet ensemble complète les corpus existants avec une plus grande diversité en termes de postures, d'apparence humaine, de vêtements, d'occlusions et de points de vue, et permet une augmentation plus étendue. Nous contribuons également à un nouveau benchmark couvrant des scènes intérieures et extérieures, et nous montrons que notre jeu de données de posture 3D offre une meilleure performance dans des scènes naturelles que les données annotées existantes, ce qui est encore amélioré par le transfert d'apprentissage à partir des données de posture 2D. Dans l'ensemble, nous soutenons que l'utilisation du transfert d'apprentissage des représentations conjointement avec les contributions algorithmiques et en données est cruciale pour une estimation générale de la posture du corps humain en 3D.