Reconstruction 3D de visages avec grande pose à partir d'une seule image par régression directe CNN volumétrique

La reconstruction faciale en 3D est un problème fondamental de la vision par ordinateur d'une difficulté extraordinaire. Les systèmes actuels supposent souvent la disponibilité de plusieurs images faciales (parfois du même sujet) en entrée et doivent faire face à de nombreux défis méthodologiques, tels que l'établissement de correspondances denses à travers des poses faciales larges, des expressions variées et une illumination non uniforme. En général, ces méthodes nécessitent des pipelines complexes et inefficaces pour la construction et l'ajustement des modèles. Dans ce travail, nous proposons de surmonter nombre de ces limitations en entraînant un réseau neuronal convolutif (CNN) sur un ensemble de données approprié composé d'images 2D et de modèles ou scans faciaux 3D. Notre CNN fonctionne avec une seule image faciale 2D, n'exige pas un alignement précis ni ne nécessite l'établissement de correspondances denses entre les images, fonctionne pour des poses et expressions faciales quelconques, et peut être utilisée pour reconstruire toute la géométrie faciale 3D (y compris les parties non visibles du visage), en évitant la construction (pendant l'entraînement) et l'ajustement (pendant les tests) d'un modèle morphable 3D. Nous atteignons cet objectif grâce à une architecture CNN simple qui effectue une régression directe d'une représentation volumique de la géométrie faciale 3D à partir d'une seule image 2D. Nous montrons également comment la tâche connexe de localisation des points caractéristiques du visage peut être intégrée dans le cadre proposé et aider à améliorer la qualité de reconstruction, notamment pour les cas de grandes poses et d'expressions faciales. Le code de test sera mis à disposition en ligne, ainsi que des modèles pré-entraînés : http://aaronsplace.co.uk/papers/jackson2017recon