Command Palette
Search for a command to run...
Vers de Bonnes Pratiques pour l'Estimation de la Pose 3D Profonde de la Main
Vers de Bonnes Pratiques pour l'Estimation de la Pose 3D Profonde de la Main
Guo Hengkai Wang Guijin Chen Xinghao Zhang Cairong
Résumé
L'estimation de la pose de la main en 3D à partir d'une seule image de profondeur constitue un problème important et complexe dans le domaine de l'interaction homme-machine. Récemment, des réseaux de convolution profonds (ConvNet) dotés d'une architecture sophistiquée ont été employés pour résoudre ce problème, mais l'amélioration par rapport aux méthodes traditionnelles basées sur les forêts aléatoires n'est pas toujours évidente. Afin d'exploiter les bonnes pratiques existantes et d'améliorer significativement les performances de l'estimation de la pose de la main, nous proposons un réseau structuré en arbre appelé Region Ensemble Network (REN), conçu pour une régression directe des coordonnées 3D. Ce modèle partitionne d'abord les sorties de la dernière couche convolutive du ConvNet en plusieurs régions discrètes. Les résultats fournis par des régresseurs entièrement connectés (FC) appliqués séparément à chaque région sont ensuite combinés par une autre couche FC afin d'effectuer l'estimation finale. Grâce à l'exploitation de plusieurs stratégies d'entraînement, notamment la synthèse de données (data augmentation) et une perte lisse L1, le REN proposé permet d'améliorer considérablement les performances du ConvNet dans la localisation des articulations de la main. Les résultats expérimentaux montrent que notre approche atteint les meilleurs résultats parmi les algorithmes de pointe sur trois jeux de données publics dédiés à l'estimation de la pose de la main. Nous avons également testé notre méthode sur la détection des pointes des doigts et sur des jeux de données de pose humaine, où elle a obtenu une précision au niveau de l'état de l'art.