Régression de modèles morphables 3D robustes et discriminants avec un réseau neuronal très profond

Les formes 3D des visages sont bien connues pour être discriminantes. Cependant, malgré cela, elles sont rarement utilisées pour la reconnaissance faciale et toujours dans des conditions de visualisation contrôlées. Nous soutenons que ceci est un symptôme d'un problème sérieux mais souvent négligé avec les méthodes actuelles de reconstruction 3D de visages à partir d'une seule vue : lorsqu'elles sont appliquées « en milieu naturel », leurs estimations 3D sont soit instables et varient pour différentes photos du même sujet, soit trop régularisées et génériques. En réponse, nous décrivons une méthode robuste pour régresser des modèles 3D morphables de visages (3DMM) discriminants. Nous utilisons un réseau neuronal convolutif (CNN) pour régresser directement les paramètres de forme et de texture du 3DMM à partir d'une photo d'entrée. Nous surmontons le manque de données d'entraînement nécessaires à cette fin en proposant une méthode permettant de générer d'énormes quantités d'exemples étiquetés. Les estimations 3D produites par notre CNN surpassent la précision de l'état de l'art sur l'ensemble de données MICC. Couplée avec un pipeline de correspondance faciale 3D-3D, nous montrons les premiers résultats compétitifs en reconnaissance faciale sur les benchmarks LFW, YTF et IJB-A en utilisant des formes 3D de visages comme représentations, plutôt que les vecteurs de caractéristiques profondes opaques utilisés par d'autres systèmes modernes.