HyperAIHyperAI
vor einem Monat

Lernen, die 3D-Gesichtsform und -ausdruck aus einem Bild ohne 3D-Überwachung zu regressieren

Soubhik Sanyal; Timo Bolkart; Haiwen Feng; Michael J. Black
Lernen, die 3D-Gesichtsform und -ausdruck aus einem Bild ohne 3D-Überwachung zu regressieren
Abstract

Die Schätzung der 3D-Gesichtsform aus einem einzelnen Bild muss robust gegenüber Variationen im Beleuchtungsszenario, Kopfhaltung, Mimik, Bartwuchs, Make-up und Verdeckungen sein. Robustheit erfordert einen großen Trainingsdatensatz von realen Bildern, die per Konstruktion keine Ground-Truth-3D-Form aufweisen. Um ein Netzwerk ohne jede 2D-zu-3D-Überwachung zu trainieren, präsentieren wir RingNet, das lernt, die 3D-Gesichtsform aus einem einzelnen Bild zu berechnen. Unser zentrales Erkenntnis ist, dass die Gesichtsform einer Person über verschiedene Bilder hinweg konstant bleibt, unabhängig von Mimik, Haltung oder Beleuchtung usw. RingNet nutzt mehrere Bilder einer Person und automatisch erkannte 2D-Gesichtseigenschaften. Es verwendet einen neuen Verlustfunktionstyp (novel loss), der die Gesichtsform bei gleicher Identität ähnlich und bei unterschiedlichen Personen verschieden macht. Wir erreichen Invarianz gegenüber Mimik durch die Nutzung des FLAME-Modells zur Darstellung des Gesichts. Nach dem Training nimmt unsere Methode ein einzelnes Bild entgegen und gibt die Parameter des FLAME-Modells aus, mit denen das Gesicht leicht animiert werden kann. Zudem erstellen wir eine neue Datenbank von Gesichtern "nicht ganz wild" (NoW) mit 3D-Kopfscans und hochaufgelösten Bildern der Probanden unter einer Vielzahl von Bedingungen. Wir evaluieren öffentlich verfügbare Methoden und stellen fest, dass RingNet genauer ist als Methoden, die 3D-Überwachung verwenden. Der Datensatz, das Modell und die Ergebnisse sind für Forschungszwecke unter http://ringnet.is.tuebingen.mpg.de verfügbar.

Lernen, die 3D-Gesichtsform und -ausdruck aus einem Bild ohne 3D-Überwachung zu regressieren | Neueste Forschungsarbeiten | HyperAI