Reconstruction robuste de visage basée sur un modèle par segmentation de bruits faiblement supervisée

Dans ce travail, nous visons à améliorer la reconstruction de visages basée sur un modèle en évitant d’ajuster celui-ci aux points aberrants, c’est-à-dire aux régions qui ne peuvent pas être correctement représentées par le modèle, telles que les objets masquant ou le maquillage. Le défi central réside dans le fait que ces points aberrants sont très variés et difficiles à annoter. Pour surmonter ce problème difficile, nous proposons une approche conjointe de détection des aberrants et d’autoencodeur de visage (FOCUS). Plus précisément, nous exploitons le fait que les points aberrants ne peuvent pas être bien ajustés par le modèle de visage, et peuvent donc être localisés efficacement lorsqu’un ajustement de modèle de haute qualité est disponible. Le principal défi réside dans le fait que l’ajustement du modèle et la segmentation des aberrants sont mutuellement dépendants et doivent être inférés conjointement. Nous résolvons ce problème du type « poule et œuf » grâce à une stratégie d’entraînement de type EM, dans laquelle un autoencodeur de visage est entraîné conjointement avec un réseau de segmentation des aberrants. Cela produit un effet synergique : le réseau de segmentation empêche l’encodeur de visage de s’ajuster aux aberrants, ce qui améliore la qualité de la reconstruction. En retour, la reconstruction 3D améliorée permet au réseau de segmentation de prédire plus précisément les régions aberrantes. Pour résoudre l’ambiguïté entre les aberrants et les régions difficiles à ajuster, telles que les sourcils, nous construisons un prior statistique à partir de données synthétiques, qui mesure le biais systématique dans l’ajustement du modèle. Les expériences sur le jeu de test NoW montrent que FOCUS atteint une performance de reconstruction 3D de visage de pointe (SOTA) parmi tous les baselines entraînés sans annotation 3D. En outre, nos résultats sur CelebA-HQ et la base AR démontrent que le réseau de segmentation peut localiser avec précision les objets masquants, même sans aucune annotation de segmentation lors de l’entraînement.