Reconstruction 3D de main basée sur un modèle par apprentissage auto-supervisé

La reconstruction d’une main 3D à partir d’une seule image RGB est un défi en raison des nombreuses configurations possibles de la main et de l’ambiguïté de profondeur. Pour reconstruire de manière fiable une main 3D à partir d’une image monoscopique, la plupart des méthodes de pointe actuelles s’appuient fortement sur des annotations 3D lors de l’entraînement, mais l’obtention de ces annotations 3D est coûteuse. Afin de réduire la dépendance aux données d’entraînement étiquetées, nous proposons S2HAND, un réseau de reconstruction 3D de main auto-supervisé capable d’estimer conjointement la pose, la forme, la texture et la vue caméra. Plus précisément, nous extraisons des indices géométriques à partir de l’image d’entrée à l’aide de points clés 2D détectés facilement accessibles. Pour apprendre un modèle de reconstruction 3D précis à partir de ces indices géométriques bruités, nous exploitons la cohérence entre les représentations 2D et 3D et proposons une série de pertes innovantes afin de rationaliser les sorties du réseau neuronal. Pour la première fois, nous démontrons la faisabilité d’entraîner un réseau de reconstruction 3D de main précis sans recourir à des annotations manuelles. Nos expérimentations montrent que la méthode proposée atteint des performances comparables à celles des méthodes entièrement supervisées récentes, tout en utilisant moins de données supervisées.