Lernen eines Modells für Gesichtsform und -ausdruck aus 4D-Scans

Der Bereich der 3D-Gesichtsmodellierung weist eine erhebliche Lücke zwischen hochwertigen und einfachen Methoden auf. Auf der Spitze der Technologie erreicht die beste Gesichtsanimation eine Ununterscheidbarkeit von echten Menschen, dies jedoch zu Lasten erheblicher manueller Aufwände. Auf der unteren Ebene basieren Gesichtserfassungen mittels konsumorientierter Tiefensensoren auf 3D-Gesichtsmodellen, die nicht ausreichend ausdrucksstark sind, um die Vielfalt natürlicher Gesichtsformen und -ausdrücke zu erfassen. Wir streben eine mittlere Lösung an, indem wir ein Gesichtsmodell aus Tausenden präzise ausgerichteter 3D-Scans lernen. Unser FLAME-Modell (Faces Learned with an Articulated Model and Expressions) ist so konzipiert, dass es mit bestehender Grafiksoftware kompatibel ist und sich leicht an Daten anpassen lässt. FLAME nutzt einen linearen Formraum, der aus 3800 Scans menschlicher Köpfe trainiert wurde. Es kombiniert diesen linearen Formraum mit einer beweglichen Kinn-, Hals- und Augenstruktur, poseabhängigen korrigierenden Blendshapes sowie zusätzlichen globalen Ausdrucksblendshapes. Die pose- und ausdrucksabhängigen Bewegungen werden anhand von 4D-Gesichtssequenzen aus dem D3DFACS-Datensatz sowie weiteren 4D-Sequenzen gelernt. Wir registrieren eine Template-Mesh präzise auf die Scans und stellen die D3DFACS-Registrierungen für Forschungszwecke zur Verfügung. Insgesamt wird das Modell auf der Basis von über 33.000 Scans trainiert. FLAME ist dimensionsarm, aber ausdrucksstärker als das FaceWarehouse-Modell und das Basel Face Model. Wir vergleichen FLAME mit diesen Modellen, indem wir sie mit derselben Optimierungsmethode an statische 3D-Scans und 4D-Sequenzen anpassen. FLAME zeigt dabei signifikant höhere Genauigkeit und ist für Forschungszwecke verfügbar.