CodeTalker : Animation faciale 3D pilotée par la parole avec un a priori de mouvement discret

L'animation faciale en 3D pilotée par la parole a été largement étudiée, mais il reste encore un écart à combler pour atteindre le réalisme et la vivacité, en raison de la nature fortement mal posée et de la rareté des données audiovisuelles. Les travaux existants formulent généralement l'application intermodale sous forme d'une tâche de régression, qui souffre du problème de régression vers la moyenne, entraînant des mouvements faciaux trop lisses. Dans cet article, nous proposons de considérer l'animation faciale pilotée par la parole comme une tâche de requête de code dans un espace proxy fini du codebook appris, ce qui favorise efficacement la vivacité des mouvements générés en réduisant l'incertitude de l'application intermodale. Le codebook est appris par auto-reconstruction sur des mouvements faciaux réels et est donc doté de priorités réalistes en matière de mouvements faciaux. Sur l'espace discret des mouvements, un modèle autorégressif temporel est utilisé pour synthétiser séquentiellement les mouvements faciaux à partir du signal vocal d'entrée, garantissant ainsi une synchronisation labiale ainsi que des expressions faciales plausibles. Nous démontrons que notre approche surpasse les méthodes actuelles les plus avancées tant qualitativement que quantitativement. De plus, une étude utilisateur confirme davantage notre supériorité en termes de qualité perceptive.