Adversarial Learning semantischer Volumina für die 2D/3D-Gesichtsform-Regression in natürlichen Umgebungen

Regressionsbasierte Methoden haben die Lokalisierung von 2D-Landmarken durch die Nutzung tiefer neuronalen Netze und großer annotierter Datensätze aus der realen Welt revolutioniert. Für die 3D-Landmarkenlokalisierung bleibt die Aufgabe jedoch herausfordernd aufgrund des Mangels an annotierten Datensätzen und der mehrdeutigen Natur von Landmarken aus der 3D-Perspektive. In dieser Arbeit wird ein neuer Ansatz für regressionsbasierte Methoden vorgestellt, der ein adversarialsches Voxel- und Koordinatenregressionsframework für die 2D- und 3D-Gesichtslandmarkenlokalisierung in realen Szenarien vorschlägt. Zunächst wird eine semantische volumetrische Darstellung eingeführt, die die Wahrscheinlichkeit für jedes Voxel, ein 3D-Landmarkenpunkt zu sein, kodiert. Anschließend wird ein end-to-end-Pipeline entworfen, die sowohl die vorgeschlagene volumetrische Darstellung als auch den Koordinatenvektor gemeinsam regressiert. Diese Pipeline verbessert nicht nur die Robustheit und Genauigkeit der Vorhersagen, sondern vereint auch die 2D- und 3D-Landmarkenlokalisierung, sodass 2D- und 3D-Datensätze gleichzeitig genutzt werden können. Darüber hinaus wird eine adversarische Lernstrategie eingesetzt, um 3D-Strukturen, die aus synthetischen Datensätzen gelernt wurden, auf reale Datensätze unter schwach überwachten Bedingungen zu übertragen. Hierbei wird ein Hilfsregressions-Discriminator vorgeschlagen, der das Netzwerk anregt, plausibele Vorhersagen sowohl für synthetische als auch für reale Bilder zu erzeugen. Die Wirksamkeit des vorgeschlagenen Ansatzes wird an den Benchmark-Datensätzen 3DFAW und AFLW2000-3D für beide Aufgaben der 2D- und 3D-Gesichtslandmarkenlokalisierung validiert. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode gegenüber den bisherigen Stand der Technik erhebliche Verbesserungen erzielt.