GANFIT: Generative Adversarial Network Fitting für hochgenaue 3D-Gesichtsrekonstruktion

In den letzten Jahren wurde viel Arbeit geleistet, um die 3D-Gesichtsstruktur aus einzelnen Bildern mittels der Leistungsfähigkeit von Tiefen Faltungsneuronalen Netzen (Deep Convolutional Neural Networks, DCNNs) zu rekonstruieren. In den neuesten Arbeiten wurden differenzierbare Renderer eingesetzt, um das Verhältnis zwischen den Gesichtskennmerken und den Parametern eines 3D-verformbaren Modells für Form und Textur zu lernen. Die Texturkennmerke entsprechen entweder Komponenten eines linearen Texturaums oder werden durch Autoencoder direkt aus realen Bildern gelernt. In allen Fällen ist die Qualität der Texturrekonstruktion der Gesichter mit den Standesder-Technik-Methoden noch nicht in der Lage, Texturen in hoher Auflösung zu modellieren. In dieser Arbeit greifen wir einen radikal anderen Ansatz auf und nutzen die Leistungsfähigkeit von Generativen Widersprüchlichen Netzen (Generative Adversarial Networks, GANs) und DCNNs, um die Gesichtstextur und -form aus einzelnen Bildern zu rekonstruieren. Dazu verwenden wir GANs, um einen sehr leistungsfähigen Generator für Gesichtstexturen im UV-Raum zu trainieren. Anschließend überarbeiten wir die ursprünglichen Ansätze zur Anpassung von 3D-verformbaren Modellen (3DMMs), indem wir nichtlineare Optimierung einsetzen, um die optimalen latenten Parameter zu finden, die das Testbild am besten rekonstruieren – dies jedoch unter einer neuen Perspektive. Wir optimieren die Parameter unter Aufsicht vortrainierter tiefer Identifikationskennmerke durch unser end-to-end differenzierbares Framework. Wir zeigen ausgezeichnete Ergebnisse bei fotorealistischen und identitätsbewahrenden 3D-Gesichtsrekonstruktionen und erreichen zum ersten Mal, soweit uns bekannt ist, eine Rekonstruktion von Gesichtstexturen mit hochfrequenten Details.