vor 2 Monaten

DSFNet: Duales Raumfusionnetzwerk für eine 3D-Dichte-Gesichtsausrichtung, die robust gegen Verdeckungen ist

Li, Heyuan ; Wang, Bo ; Cheng, Yu ; Kankanhalli, Mohan ; Tan, Robby T.

Abstract

Die Empfindlichkeit gegenüber schweren Verdeckungen und großen Betrachtungswinkeln begrenzt die Einsatzszenarien der existierenden monoökularen 3D-Dichten-Gesichtsausrichtungsmethoden. Die neueste Methode auf Basis von 3DMM (3D Morphable Models) regressiert die Koeffizienten des Modells direkt, wobei sie die nützlichen Informationen aus den niedrigstufigen 2D-räumlichen und semantischen Merkmalen unternutzt, die tatsächlich Hinweise für Form und Orientierung des Gesichts liefern können. In dieser Arbeit zeigen wir, wie das gemeinsame Modellieren der 3D-Gesichtsgeometrie im Bild- und Modellraum die Probleme von Verdeckungen und Betrachtungswinkeln lösen kann. Anstatt das gesamte Gesicht direkt vorherzusagen, führen wir zunächst eine dichte Vorhersage durch, um Bildraum-Merkmale im sichtbaren Gesichtsbereich zu regressieren. Anschließend basieren unsere Vorhersagen der Modellkoeffizienten auf den regresseden Merkmalen der sichtbaren Bereiche und nutzen das Vorwissen über die Geometrie des gesamten Gesichts aus den morphologischen Modellen, um die unsichtbaren Bereiche zu vervollständigen. Wir schlagen zudem ein Fusionsnetzwerk vor, das die Vorteile sowohl der Vorhersagen im Bild- als auch im Modellraum kombiniert, um eine hohe Robustheit und Genauigkeit in unbeschränkten Szenarien zu erreichen. Dank des vorgeschlagenen Fusionsmoduls ist unsere Methode nicht nur gegenüber schweren Verdeckungen und großen Neigungswinkeln (Pitch) und Schrägheitswinkeln (Roll) robust – was dem Vorteil unseres Ansatzes im Bildraum entspricht – sondern auch gegenüber Rauschen und großen Drehwinkeln (Yaw), was wiederum dem Vorteil unserer Methode im Modellraum geschuldet ist. Umfassende Evaluierungen belegen die überlegene Leistungsfähigkeit unserer Methode im Vergleich zu den neuesten Methoden. Bei der Aufgabe der 3D-Dichten-Gesichtsausrichtung erzielen wir einen NME-Wert von 3,80 % auf dem AFLW2000-3D Datensatz, was eine Verbesserung um 5,5 % gegenüber der neuesten Methode darstellt. Der Quellcode ist unter https://github.com/lhyfst/DSFNet verfügbar.