Estimation de la posture de la main en 3D basée sur la profondeur : des réalisations actuelles aux objectifs futurs

Dans cet article, nous nous efforçons de répondre à deux questions : Quel est l'état actuel de l'estimation de la posture de la main en 3D à partir d'images de profondeur ? Et quels sont les prochains défis à relever ? Suite au succès du Hands In the Million Challenge (HIM2017), nous examinons les 10 méthodes les plus avancées sur trois tâches : l'estimation de la posture en 3D à partir d'une seule image, le suivi de la main en 3D et l'estimation de la posture de la main lors d'interactions avec des objets. Nous analysons les performances des différentes structures de CNN en fonction de la forme de la main, de la visibilité des articulations, des distributions des points de vue et des articulations. Nos conclusions incluent : (1) l'estimation isolée de la posture de la main en 3D atteint des erreurs moyennes faibles (10 mm) dans une plage de points de vue comprise entre [70, 120] degrés, mais elle est loin d'être résolue pour les points de vue extrêmes ; (2) les représentations volumiques en 3D surpassent les CNNs 2D, capturant mieux la structure spatiale des données de profondeur ; (3) Les méthodes discriminatives généralisent encore mal aux formes de mains inconnues ; (4) Bien que les occultations d'articulations posent un défi pour la plupart des méthodes, une modélisation explicite des contraintes structurales peut réduire considérablement l'écart entre les erreurs sur les articulations visibles et celles occultées.