CodeTalker: Sprachgesteuerte 3D-Gesichtsanimation mit diskretem Bewegungsprior

Sprachgesteuerte 3D-Gesichtsanimation wurde bereits intensiv untersucht, es besteht jedoch weiterhin ein Defizit bei der Erreichung von Realismus und Lebendigkeit aufgrund der stark unterbestimmten Natur und der Knappheit von Audiovisuellen Daten. Bestehende Arbeiten formulieren die Modalkreuzabbildung in der Regel als Regressionsaufgabe, die durch das Problem des Regressions zur Mitte zu überglätteten Gesichtsbewegungen führt. In dieser Arbeit schlagen wir vor, sprachgesteuerte Gesichtsanimation als eine Codeabfrageaufgabe in einem endlichen Proxyraum des gelernten Codebooks zu betrachten, was die Lebendigkeit der generierten Bewegungen durch die Reduktion der Modalkreuzabbildungsunsicherheit effektiv fördert. Das Codebook wird durch Selbstrekonstruktion über echte Gesichtsbewegungen gelernt und ist daher mit realistischen Gesichtsbewegungsprioris versehen. Über den diskreten Bewegungsraum wird ein zeitliches Autoregressives Modell eingesetzt, um sequenziell Gesichtsbewegungen aus dem Eingangssprachsignal zu synthetisieren, was sowohl Lippen-Synchronität als auch plausibele Gesichtsausdrücke gewährleistet. Wir zeigen, dass unser Ansatz qualitativ und quantitativ den aktuellen Stand der Technik übertrifft. Darüber hinaus bestätigt eine Nutzerstudie unsere Überlegenheit in Bezug auf die Wahrnehmungsqualität.