Ein wahrnehmungsbasierter Formverlust für die monokulare 3D-Gesichtsrekonstruktion

Die monokulare 3D-Gesichtsrekonstruktion ist ein weit verbreitetes Thema, und bestehende Ansätze lösen das Problem entweder durch schnelle neuronale Netzwerkinferenz oder durch offline-iterative Rekonstruktion der Gesichtsgeometrie. In beiden Fällen werden sorgfältig gestaltete Energiefunktionen minimiert, die häufig Verlustterme wie einen photometrischen Verlust, einen Landmark-Reprojektionsverlust und andere beinhalten. In dieser Arbeit schlagen wir eine neue Verlustfunktion für die monokulare Gesichtserfassung vor, die von der Art inspiriert ist, wie Menschen die Qualität einer 3D-Gesichtsrekonstruktion bei einem bestimmten Bild wahrnehmen. Es ist allgemein bekannt, dass Beleuchtung starke Hinweise auf die 3D-Form im menschlichen visuellen System liefert. Daher zielt unsere neue „perzeptive“ Formverlustfunktion darauf ab, die Qualität einer 3D-Gesichtsschätzung ausschließlich anhand von Beleuchtungshinweisen zu bewerten. Unser Verlust wird als diskriminierendes neuronales Netzwerk implementiert, das ein Eingangsbild des Gesichts und eine beschattete Renderversion der Geometrieschätzung erhält und dann einen Score vorhersagt, der perzeptiv beurteilt, wie gut die beschattete Renderversion dem gegebenen Bild entspricht. Dieses „Kritiker“-Netzwerk arbeitet allein mit dem RGB-Bild und der Geometrierenderversion und benötigt keine Schätzung des Albedos oder der Beleuchtung in der Szene. Darüber hinaus operiert unser Verlust vollständig im Bilderbereich und ist daher unabhängig von der Maschengtopologie. Wir zeigen, wie unsere neue perzeptive Formverlustfunktion mit traditionellen Energietermen für die monokulare 3D-Gesichtsoptimierung und tiefen neuronalen Netzen Regression kombiniert werden kann, um bessere Ergebnisse als der aktuelle Stand der Technik zu erzielen.