Schneller als Echtzeit: Eine 3D-Raumtransformernetzwerk-Methode für die Gesichtsausrichtung in unbeschränkten Posebedingungen

Die Gesichtsausrichtung beinhaltet das Finden einer Reihe von Landmark-Punkten auf einem Bild mit bekannter semantischer Bedeutung. Allerdings wird diese semantische Bedeutung der Landmark-Punkte in 2D-Ansätzen oft verloren, bei denen die Landmark-Punkte entweder zu sichtbaren Rändern verschoben werden oder bei Veränderungen der Gesichtspose ignoriert werden. Um konsistente Ausrichtungspunkte über große Poses hinweg zu extrahieren, muss die 3D-Struktur des Gesichts im Ausrichtungsschritt berücksichtigt werden. Die Extraktion einer 3D-Struktur aus einem einzelnen 2D-Bild erfordert jedoch in der Regel eine Ausrichtung als Voraussetzung. Wir präsentieren unseren neuen Ansatz, um die 3D-Form des Gesichts und die semantisch konsistenten 2D-Ausrichtungen gleichzeitig durch ein 3D Spatial Transformer Network (3DSTN) zu extrahieren, das sowohl die Kameraprojektionsmatrix als auch die Verformungsparameter eines 3D-Modells modelliert. Durch die Nutzung eines generischen 3D-Modells und einer Thin Plate Spline (TPS)-Verformungsfunktion können wir subjektspezifische 3D-Formen ohne den Bedarf an einer großen 3D-Formbasis generieren. Zudem kann unser vorgeschlagenes Netzwerk in einem end-to-end-Framework vollständig auf synthetischen Daten aus dem 300W-LP-Datensatz trainiert werden. Im Gegensatz zu anderen 3D-Methoden benötigt unser Ansatz nur einen einzigen Durchlauf durch das Netzwerk, was zu einer schneller als Echtzeit erfolgenden Ausrichtung führt. Die Bewertungen unseres Modells auf den Annotated Facial Landmarks in the Wild (AFLW)- und AFLW2000-3D-Datensätzen zeigen, dass unsere Methode den Stand der Technik bei anderen 3D-Ansätzen zur Ausrichtung übertreffen kann.