Emotionell verbesserte Generierung von sprechenden Gesichtern

Mehrere Arbeiten haben end-to-end-Pipelines zur Generierung lippenstimmiger sprechender Gesichter entwickelt, die in verschiedenen realen Anwendungen wie Unterricht oder Sprachübersetzung in Videos genutzt werden können. Allerdings erzeugen diese vorherigen Ansätze aufgrund mangelnder Berücksichtigung von Mimik und Emotionen nur wenig realistische Videos. Zudem hängt ihre Wirksamkeit stark von den Gesichtern in der Trainingsdatenmenge ab, was bedeutet, dass sie möglicherweise auf unbekannte Gesichter schlecht übertragbar sind. Um dies zu überwinden, entwickeln wir einen Rahmen für die Generierung sprechender Gesichter, der auf einer kategorischen Emotion bedingt ist, um Videos mit angemessenen Ausdrücken zu erzeugen, die realistischer und überzeugender wirken. Mit einer breiten Palette von sechs Emotionen – nämlich Freude, Traurigkeit, Angst, Wut, Ekel und Neutralität – zeigen wir, dass unser Modell sich an beliebige Identitäten, Emotionen und Sprachen anpassen kann. Unser vorgeschlagener Rahmen verfügt über eine benutzerfreundliche Web-Oberfläche mit Echtzeit-Interaktion für die emotionale Generierung sprechender Gesichter. Zudem führen wir eine Benutzerstudie zur subjektiven Bewertung der Usability, des Designs und der Funktionalität unserer Oberfläche durch. Projektseite: https://midas.iiitd.edu.in/emo/