Hand PointNet : Estimation de la posture 3D de la main à l’aide d’ensembles de points

Le réseau de neurones convolutif (CNN) a montré des résultats prometteurs pour l'estimation de la pose 3D de la main à partir d'images en profondeur. Contrairement aux méthodes existantes basées sur les CNN qui prennent soit des images 2D, soit des volumes 3D en entrée, le modèle proposé, Hand PointNet, traite directement le nuage de points 3D représentant la surface visible de la main afin de réaliser une régression de la pose. En prenant comme entrée un nuage de points normalisé, le réseau de régression de la pose de la main proposé est capable de capturer des structures complexes de la main et de prédire avec précision une représentation à faible dimension de la pose 3D. Afin d'améliorer davantage la précision des extrémités des doigts, nous avons conçu un réseau de raffinement des extrémités des doigts qui prend directement en entrée les points voisins de la position estimée de l'extrémité du doigt afin de corriger cette position. Des expériences menées sur trois jeux de données exigeants pour l'estimation de la pose de la main montrent que la méthode proposée surpasser les approches les plus avancées de l'état de l'art.