MoSAR: Monokular semi-supervised Modell zur Avatar-Rekonstruktion mittels differenzierbarer Beleuchtung

Die Rekonstruktion eines Avatars aus einem Porträtbild hat zahlreiche Anwendungen in der Multimediaproduktion, stellt jedoch weiterhin ein herausforderndes Forschungsproblem dar. Die Extraktion von Reflektanzkarten und Geometrie aus einer einzigen Bildaufnahme ist schlecht gestellt: Die Rückgewinnung der Geometrie ist ein ein-zu-viele-Problem, und Reflektanz sowie Beleuchtung sind schwer zu entkoppeln. Genauere Geometrie und Reflektanz können unter kontrollierten Bedingungen einer Lichtbühne erfasst werden, doch die Erhebung großer Datensätze auf diese Weise ist kostspielig. Zudem führt die alleinige Nutzung solcher Daten zur schlechten Generalisierung bei realen, unkontrollierten Bildern (in-the-wild). Dies motiviert die Einführung von MoSAR, einer Methode zur 3D-Avataregenerierung aus monokularen Bildern. Wir schlagen ein semi-supervisiertes Trainingsverfahren vor, das die Generalisierung verbessert, indem es sowohl aus Lichtbühnen- als auch aus in-the-wild-Datensätzen lernt. Dies wird durch eine neuartige differenzierbare Schattierungsformulierung erreicht. Wir zeigen, dass unser Ansatz die intrinsischen Gesichtsparameter effektiv entkoppelt und damit beleuchtbarere Avatare erzeugt. Dadurch schätzt MoSAR eine umfassendere Menge an Hautreflektanzkarten und generiert realistischere Avatare als bestehende State-of-the-Art-Methoden. Zudem stellen wir eine neue Datensammlung namens FFHQ-UV-Intrinsics vor, die erste öffentliche Datensammlung, die in großem Maßstab intrinsische Gesichtsattribute (diffuse, spekulaire, Ambient-Occlusion- und Transluzenzkarten) für insgesamt 10.000 Personen bereitstellt. Die Projektwebsite und die Datensammlung sind unter folgendem Link verfügbar: https://ubisoft-laforge.github.io/character/mosar/