Compréhension d'images de main par apprentissage multi-tâches profond

L’analyse et la compréhension des informations relatives à la main à partir de matériaux multimédias tels que des images ou des vidéos sont essentielles pour de nombreuses applications réelles et constituent un domaine actif de recherche. Bien qu’il existe de nombreuses études visant à reconstruire les informations de la main à partir d’une seule image, ces approches traitent généralement une seule tâche à la fois — par exemple, la segmentation du masque de la main, l’estimation de la pose 2D/3D de la main ou la reconstruction du maillage de la main — et obtiennent des performances insatisfaisantes dans des scénarios difficiles. Afin d’améliorer davantage les performances de ces tâches, nous proposons un cadre novateur d’interprétation d’images de main (Hand Image Understanding, HIU), permettant d’extraire des informations complètes sur l’objet main à partir d’une seule image RGB, en tenant compte conjointement des relations entre ces différentes tâches. Pour atteindre cet objectif, nous avons conçu un squelette d’apprentissage multi-tâches en cascade (MTL), capable d’estimer les cartes de chaleur 2D, d’apprendre le masque de segmentation et de générer des informations intermédiaires 3D encodées, suivi d’un paradigme d’apprentissage de coarse-to-fine et d’une stratégie d’apprentissage auto-supervisé. Des expériences qualitatives montrent que notre méthode est capable de reconstruire des représentations de maillage raisonnables, même dans des situations extrêmes. Quantitativement, notre approche surpasse significativement les méthodes de pointe sur diverses bases de données largement utilisées, selon plusieurs métriques d’évaluation.