Reconstruction 3D de visage auto-supervisée par estimation conditionnelle

Nous présentons un cadre d’estimation conditionnelle (CEST) permettant d’apprendre des paramètres faciaux 3D à partir d’images 2D en vue unique, via une formation auto-supervisée à partir de vidéos. CEST repose sur le principe de l’analyse par synthèse, dans lequel les paramètres faciaux 3D (forme, réflectance, point de vue et éclairage) sont estimés à partir d’une image faciale, puis réassemblés pour reconstruire l’image faciale 2D. Afin d’apprendre des paramètres 3D sémantiquement significatifs sans accès explicite à leurs étiquettes, CEST couple l’estimation des différents paramètres 3D en tenant compte de leurs dépendances statistiques. Plus précisément, l’estimation de tout paramètre 3D n’est pas seulement conditionnée à l’image donnée, mais aussi aux paramètres faciaux déjà estimés. En outre, la symétrie de la réflectance et la cohérence entre les cadres vidéo sont exploitées pour améliorer le découplage des paramètres faciaux. Associé à une nouvelle stratégie d’intégration de la symétrie et de la cohérence de la réflectance, CEST peut être efficacement entraîné à partir de vidéos capturées dans des conditions réelles (in-the-wild). Des expériences qualitatives et quantitatives démontrent l’efficacité de CEST.