Gesichtsausrichtung bei großen Pose-Unterschieden: Eine 3D-Lösung

Die Gesichtsausrichtung, die ein Gesichtsmodell auf ein Bild anpasst und die semantischen Bedeutungen der Gesichtspixel extrahiert, ist ein wichtiges Thema in der Computer Vision (CV) Community. Allerdings sind die meisten Algorithmen für Gesichter in kleinen bis mittleren Posewinkeln (unter 45 Grad) ausgelegt und fehlen ihnen die Fähigkeiten, Gesichter in großen Posewinkeln bis zu 90 Grad auszurichten. Die Herausforderungen sind dreifach: Erstens geht das häufig verwendete, auf Landmarken basierende Gesichtsmodell davon aus, dass alle Landmarken sichtbar sind, und ist daher für Profilansichten nicht geeignet. Zweitens variiert das Erscheinungsbild des Gesichts bei großen Posewinkeln deutlich stärker, von der Frontalansicht bis zur Profilansicht. Drittens ist das Beschriften von Landmarken bei großen Posewinkeln äußerst schwierig, da unsichtbare Landmarken geraten werden müssen. In dieser Arbeit schlagen wir eine Lösung für diese drei Probleme in einem neuen Ausrichtungsrahmen vor, dem 3D-Dichten-Gesichtsausrichtungs-Modell (3D Dense Face Alignment, 3DDFA), bei dem ein dichtes 3D-Gesichtsmodell durch ein konvolutorisches Neuronales Netz (Convolutional Neural Network, CNN) auf das Bild angepasst wird. Wir stellen außerdem eine Methode vor, um großdimensionale Trainingsbeispiele in Profilansichten zu synthetisieren, um das dritte Problem der Datenbeschriftung zu lösen. Experimente mit der anspruchsvollen AFLW-Datenbank zeigen, dass unser Ansatz erhebliche Verbesserungen gegenüber den bisher besten Methoden erzielt.