Forme et posture de la main 3D à partir d'images dans des conditions réelles

Dans cette étude, nous présentons la première méthode basée sur l'apprentissage profond de bout en bout qui prédit à la fois la forme et la posture de la main en 3D à partir d'images RGB dans des conditions réelles. Notre réseau est composé de la concaténation d'un encodeur convolutif profond et d'un décodeur basé sur un modèle fixe. Étant donné une image d'entrée, et éventuellement des détections de joints 2D obtenues par un CNN indépendant, l'encodeur prédit un ensemble de paramètres de main et de vue. Le décodeur comporte deux composants : un modèle précalculé de déformation articulée de la main qui génère une maillage 3D à partir des paramètres de main, et un module de reprojection contrôlé par les paramètres de vue qui projette la main générée dans le domaine de l'image. Nous montrons que l'utilisation des connaissances a priori sur la forme et la posture encodées dans le modèle de main au sein d'un cadre d'apprentissage profond permet d'obtenir des performances de pointe pour la prédiction de posture 3D à partir d'images sur des benchmarks standard, tout en produisant des reconstructions 3D géométriquement valides et plausibles. De plus, nous démontrons que l'entraînement avec une supervision faible sous forme d'annotations de joints 2D sur des ensembles de données d'images dans des conditions réelles, associée à une supervision complète sous forme d'annotations de joints 3D sur des ensembles de données limités disponibles, permet une bonne généralisation pour les prédictions de forme et posture 3D sur des images dans des conditions réelles.