Selbstüberwachte monokulare 3D-Gesichtsrekonstruktion durch sichtbarkeitsbewusste Mehransichts-Geometriekonsistenz

Neuere, auf Lernen basierende Ansätze, bei denen Modelle anhand von Einzelansichtsbildern trainiert werden, haben vielversprechende Ergebnisse für die monokulare 3D-Gesichtsrekonstruktion erzielt, leiden jedoch unter dem schlecht gestellten Problem der Gesichtspose und der Tiefenschätzung. Im Gegensatz zu früheren Arbeiten, die lediglich 2D-Feature-Beschränkungen vorschreiben, schlagen wir eine selbstüberwachte Trainingsarchitektur vor, die die Konsistenz der Mehransichtsgeometrie nutzt und somit zuverlässige Beschränkungen für die Schätzung von Gesichtspose und Tiefen liefert. Zunächst stellen wir eine sichtbarkeitsbewusste Ansichtssynthese-Methode vor, um die Konsistenz der Mehransichtsgeometrie in das selbstüberwachte Lernen einzubinden. Anschließend entwerfen wir drei neuartige Verlustfunktionen zur Gewährleistung der Mehransichtskonsistenz: die Pixelkonsistenzverlustfunktion, die Tiefenkonsistenzverlustfunktion und die epipolare Verlustfunktion basierend auf Gesichtsmerkmalen. Unser Ansatz ist sowohl genau als auch robust, insbesondere bei starken Variationen von Mimik, Gesichtsposen und Beleuchtungsbedingungen. Umfassende Experimente auf Benchmarks für Gesichtsausrichtung und 3D-Gesichtsrekonstruktion belegen die Überlegenheit gegenüber aktuellen State-of-the-Art-Methoden. Der Quellcode und die Modelle sind unter https://github.com/jiaxiangshang/MGCNet veröffentlicht.