Reconstruction 3D du visage à partir d'une seule image assistée par des images 2D de visages dans la nature

La reconstruction faciale 3D à partir d'une seule image 2D est un problème complexe avec de nombreuses applications. Les méthodes récentes visent généralement à apprendre un modèle facial 3D basé sur les CNN, qui régresse les coefficients du modèle morphable 3D (3DMM) à partir d'images 2D pour effectuer la reconstruction faciale 3D ou l'alignement facial dense. Cependant, le manque de données d'entraînement annotées en 3D limite considérablement les performances de ces méthodes. Pour atténuer ce problème, nous proposons une nouvelle méthode d'apprentissage auto-supervisé assistée par des images 2D (2DASL), capable d'utiliser efficacement des images faciales 2D « in-the-wild » avec des informations de points clés bruyantes pour améliorer substantiellement l'apprentissage du modèle facial 3D. Plus précisément, en prenant les points clés faciaux 2D épars comme information supplémentaire, le 2DSAL introduit quatre nouveaux schémas d'auto-supervision qui considèrent la prédiction des points clés 2D et 3D comme un processus d'auto-mappage, incluant la cohérence de la prédiction des points clés 2D et 3D, la cohérence cyclique sur la prédiction des points clés 2D et l'autocritique sur les coefficients prédits du modèle morphable 3D (3DMM) basée sur les prédicitions de points clés. En utilisant ces quatre schémas d'auto-supervision, la méthode 2DASL réduit considérablement le besoin de paires d'annotations conventionnelles 2D vers 3D et produit des modèles faciaux 3D de bien meilleure qualité sans nécessiter aucune annotation supplémentaire en 3D. Des expériences menées sur plusieurs jeux de données difficiles montrent que notre méthode surpass largement les états de l'art pour la reconstruction faciale 3D et l'alignement facial dense.