V2V-PoseNet : Réseau de prédiction voxel-à-voxel pour une estimation précise de la pose 3D de la main et du corps humain à partir d'une seule carte de profondeur

La plupart des méthodes existantes basées sur l'apprentissage profond pour l'estimation de la posture 3D de la main et du corps humain à partir d'une seule carte de profondeur reposent sur un cadre commun qui prend une carte de profondeur 2D et régresse directement les coordonnées 3D des points clés, tels que les articulations de la main ou du corps humain, via des réseaux neuronaux convolutifs 2D (CNNs). La première faiblesse de cette approche est la présence de distorsion perspective dans la carte de profondeur 2D. Bien que la carte de profondeur soit intrinsèquement des données 3D, de nombreuses méthodes antérieures traitent ces cartes comme des images 2D, ce qui peut déformer la forme de l'objet réel lors de sa projection de l'espace 3D à l'espace 2D. Cela oblige le réseau à effectuer une estimation invariante à la distorsion perspective. La deuxième faiblesse de l'approche conventionnelle est que la régression directe des coordonnées 3D à partir d'une image 2D est une transformation hautement non-linéaire, ce qui crée des difficultés dans le processus d'apprentissage. Pour surmonter ces faiblesses, nous transformons d'abord le problème d'estimation de la posture 3D de la main et du corps humain à partir d'une seule carte de profondeur en une prédiction voxel-à-voxel utilisant une grille voxelisée 3D et estimant la probabilité par voxel pour chaque point clé. Nous concevons notre modèle comme un CNN 3D qui fournit des estimations précises tout en fonctionnant en temps réel. Notre système surpassant presque toutes les méthodes précédentes dans presque tous les jeux de données publics d'estimation de la posture 3D de la main et du corps humain, il a remporté le premier prix au défi HANDS 2017 d'estimation frame-based (cadre par cadre) de la posture 3D de la main. Le code source est disponible sur https://github.com/mks0601/V2V-PoseNet_RELEASE.