Große Pose 3D-Gesichtsrekonstruktion aus einem einzelnen Bild durch direkte volumetrische CNN-Regression

Die 3D-Gesichtsrekonstruktion ist ein grundlegendes Problem der Computer Vision von außergewöhnlicher Schwierigkeit. Aktuelle Systeme gehen oft davon aus, dass mehrere Gesichtsbilder (manchmal vom gleichen Subjekt) als Eingabe zur Verfügung stehen, und müssen eine Reihe methodischer Herausforderungen bewältigen, wie zum Beispiel die Herstellung dichter Korrespondenzen bei großen Gesichtsposen, -ausdrücken und ungleichmäßiger Beleuchtung. Im Allgemeinen erfordern diese Methoden komplexe und ineffiziente Pipelines für das Modellbau- und Anpassungsprozess. In dieser Arbeit schlagen wir vor, viele dieser Einschränkungen durch das Training eines Faltungsneuronalen Netzes (Convolutional Neural Network, CNN) auf einem geeigneten Datensatz zu überwinden, der 2D-Bilder und 3D-Gesichtsmodelle oder -scans enthält. Unser CNN arbeitet mit nur einem einzelnen 2D-Gesichtsbild, benötigt keine genaue Ausrichtung noch die Herstellung dichter Korrespondenzen zwischen Bildern, funktioniert für beliebige Gesichtsposen und -ausdrücke und kann verwendet werden, um die gesamte 3D-Gesichtsgeometrie (einschließlich der nicht sichtbaren Teile des Gesichts) zu rekonstruieren, indem es den Aufbau (während des Trainings) und die Anpassung (während des Testens) eines 3D-Morphable Models umgeht. Dies erreichen wir durch eine einfache CNN-Architektur, die eine direkte Regression einer volumnetrischen Darstellung der 3D-Gesichtsgeometrie aus einem einzelnen 2D-Bild durchführt. Wir zeigen auch, wie die verwandte Aufgabe der Gesichtslandmarklokalisierung in den vorgeschlagenen Rahmen integriert werden kann und dabei hilft, die Rekonstruktionsqualität zu verbessern, insbesondere bei großen Posen und Gesichtsausdrücken. Der Testcode wird online verfügbar gemacht sowie vorab trainierte Modelle: http://aaronsplace.co.uk/papers/jackson2017recon