Wie weit sind wir von der Lösung des 2D- und 3D-Gesichtsausrichtungsproblems entfernt? (und ein Datensatz mit 230.000 3D-Gesichtspunkten)

Dieses Papier untersucht, wie weit ein sehr tiefes neuronales Netzwerk davon entfernt ist, nahezu sättigende Leistung auf bestehenden 2D- und 3D-Gesichtsausrichtungsdatensätzen zu erzielen. Zu diesem Zweck leisten wir folgende fünf Beiträge: (a) Wir erstellen zum ersten Mal eine sehr starke Baseline, indem wir eine state-of-the-art-Architektur für Landmarklokalisierung mit einem state-of-the-art-Residualblock kombinieren, es auf einem sehr großen, aber synthetisch erweiterten 2D-Gesichtslandmarkendatensatz trainieren und schließlich auf allen anderen 2D-Gesichtslandmarkendatensätzen evaluieren. (b) Wir entwickeln ein von 2D-Landmarks geleitetes Netzwerk, das 2D-Landmarkannotationen in 3D umwandelt und alle existierenden Datensätze vereint, was zur Schaffung des LS3D-W führt, des größten und anspruchsvollsten 3D-Gesichtslandmarkendatensatzes bislang (~230.000 Bilder). (c) Danach trainieren wir ein neuronales Netzwerk für die 3D-Gesichtsausrichtung und evaluieren es auf dem neu eingeführten LS3D-W. (d) Wir untersuchen zudem den Einfluss aller „traditionellen“ Faktoren, die die Gesichtsausrichtungsleistung beeinflussen, wie große Pose, Initialisierung und Auflösung, und führen einen „neuen“ hinzu, nämlich die Größe des Netzwerks. (e) Wir zeigen, dass sowohl die 2D- als auch die 3D-Gesichtsausrichtungsnetzwerke eine Leistung von bemerkenswerter Genauigkeit erzielen, die wahrscheinlich nahe an der Sättigung der verwendeten Datensätze liegt. Trainings- und Testcode sowie der Datensatz können unter https://www.adrianbulat.com/face-alignment/ heruntergeladen werden.