Régression 3D Densité pour l'Estimation de la Posture de la Main

Nous présentons une méthode simple et efficace pour l'estimation de la posture de la main en 3D à partir d'une seule image de profondeur. Contrairement aux méthodes précédentes basées sur une régression 3D globale, notre méthode fonctionne par estimation dense pixel par pixel. Cela est réalisé grâce à des choix de conception soigneusement étudiés dans la paramétrisation de la posture, qui exploitent à la fois les propriétés 2D et 3D de la carte de profondeur. Plus précisément, nous décomposons les paramètres de posture en un ensemble d'estimations par pixel, c'est-à-dire des cartes thermiques 2D, des cartes thermiques 3D et des champs vectoriels directionnels unitaires en 3D. Les cartes thermiques articulaires 2D/3D et les décalages articulaires 3D sont estimés via des cascades de réseaux multitâches, formés bout à bout (end-to-end). Les estimations pixel par pixel peuvent être directement traduites en un schéma de vote. Une variante du décalage moyen (mean shift) est ensuite utilisée pour agréger les votes locaux tout en imposant un consensus entre la posture estimée en 3D et les estimations pixel par pixel en 2D et 3D par conception. Notre méthode est efficace et très précise. Sur les jeux de données MSRA et NYU, notre méthode surpassent toutes les approches précédentes de l'état de l'art avec une marge importante. Sur le jeu de données ICVL, notre méthode atteint une précision similaire à celle du résultat presque saturé actuellement proposé et surpassent diverses autres méthodes proposées. Le code est disponible $\href{"https://github.com/melonwan/denseReg"}{\text{en ligne}}$.