MeshTalk: 3D-Gesichtsanimation aus Sprache durch Kreuzmodalitäts-Entwirrung

Dieses Papier präsentiert eine generische Methode zur Erstellung einer vollständigen 3D-Gesichtsanimation aus Sprache. Bestehende Ansätze für audiogetriebene Gesichtsanimationen zeigen oft unheimliche oder statische Animationen des oberen Gesichtsteils, schaffen es nicht, genaue und plausibele Koartikulation zu erzeugen, oder sie basieren auf personenspezifischen Modellen, die ihre Skalierbarkeit einschränken. Um bestehende Modelle zu verbessern, schlagen wir einen generischen Ansatz vor, der hochrealistische Bewegungssyntheseergebnisse für das gesamte Gesicht erzielt. Im Zentrum unseres Ansatzes steht ein kategorischer latenter Raum für Gesichtsanimationen, der auf einem neuen Cross-Modality-Loss basiert und audiokorrelierte und audionichtkorrelierte Informationen trennt. Unser Ansatz gewährleistet eine sehr genaue Lippenbewegung und synthetisiert gleichzeitig plausibele Animationen von Teilen des Gesichts, die nicht mit dem Audiosignal korrelieren, wie zum Beispiel Augenzwinkern und Augenbrauenbewegungen. Wir demonstrieren, dass unser Ansatz mehrere Baselines übertrifft und sowohl qualitativ als auch quantitativ den aktuellen Stand der Technik erreicht. Eine perzeptuelle Nutzerstudie zeigt, dass unser Ansatz in über 75 % der Fälle realistischer eingeschätzt wird als der aktuelle Stand der Technik. Wir empfehlen, das ergänzende Video anzusehen, bevor man das Papier liest: https://github.com/facebookresearch/meshtalk