Réseau Région Ensemble : Amélioration du Réseau de Convolution pour l'Estimation de la Pose de la Main

L'estimation de la posture de la main à partir d'images de profondeur monoculaires est un problème important et difficile dans le domaine de l'interaction homme-machine. Récemment, des réseaux convolutifs profonds (ConvNet) avec des designs sophistiqués ont été utilisés pour y remédier, mais l'amélioration par rapport aux méthodes traditionnelles n'est pas si évidente. Pour améliorer les performances de la régression directe des coordonnées 3D, nous proposons un réseau d'ensemble régional (REN) structuré en arbre, qui divise les sorties de convolution en régions et intègre les résultats de plusieurs régresseurs sur chaque région. Contrairement à l'agrégation multi-modèles, notre modèle est entièrement formé par apprentissage end-to-end. Les résultats expérimentaux montrent que notre approche atteint les meilleures performances parmi les états de l'art sur deux jeux de données publics.