Estimation de la pose 3D globale des deux mains à l'aide d'une caméra monulaire RGB

Nous abordons la tâche ardue d'estimer les positions globales des articulations 3D pour les deux mains à partir d'images RGB monoculaires uniquement. Nous proposons une nouvelle pipeline basée sur un réseau neuronal convolutif multi-étapes qui segmente et localise précisément les mains malgré l'occlusion entre les deux mains et le bruit de fond complexe, et estime les positions canoniques des articulations 2D et 3D sans aucune information de profondeur. Les positions globales des articulations par rapport à l'origine de la caméra sont calculées en utilisant les estimations de la posture de la main et la longueur réelle du principal os (key bone) avec un nouvel algorithme de projection. Pour entraîner les CNNs à cette nouvelle tâche, nous introduisons un vaste ensemble de données synthétiques de postures 3D des mains. Nous démontrons que notre système surpasses les travaux précédents sur les ensembles de données de référence pour l'estimation de la posture canonique 3D des mains avec des informations RGB uniquement. De plus, nous présentons le premier travail qui réalise un suivi 3D global précis des deux mains à partir d'entrées RGB uniquement, et fournissons une évaluation quantitative et qualitative exhaustive.