il y a 2 mois

SelfTalk : Un diagramme d’entraînement auto-supervisé commutatif pour comprendre les visages parlants en 3D

Peng, Ziqiao ; Luo, Yihao ; Shi, Yue ; Xu, Hao ; Zhu, Xiangyu ; He, Jun ; Liu, Hongyan ; Fan, Zhaoxin

Résumé

Technique d'animation 3D du visage pilotée par la parole, étendant ses applications à divers domaines multimédias. Les recherches précédentes ont généré des mouvements de lèvres et des expressions faciales réalistes prometteurs à partir de signaux audio. Cependant, les modèles de régression traditionnels uniquement guidés par les données font face à plusieurs problèmes essentiels, tels que la difficulté d'accéder à des étiquettes précises et les écarts de domaine entre différentes modalités, entraînant des résultats insatisfaisants manquant de précision et de cohérence.Pour améliorer la précision visuelle des mouvements de lèvres générés tout en réduisant la dépendance aux données étiquetées, nous proposons un nouveau cadre appelé SelfTalk, en intégrant l'autosupervision dans un système réseau intermodales pour apprendre les visages parlants 3D. Ce cadre construit un système réseau composé de trois modules : l'animateur facial, le reconnaissanceur vocal et l'interprète de lecture labiale. Le cœur de SelfTalk est un diagramme d'entraînement commutatif qui facilite l'échange de caractéristiques compatibles entre l'audio, le texte et la forme des lèvres, permettant à nos modèles d'apprendre la connexion complexe entre ces facteurs.Le cadre proposé utilise les connaissances acquises par l'interprète de lecture labiale pour générer des formes de lèvres plus plausibles. De nombreuses expériences et études utilisateurs montrent que notre approche proposée atteint des performances d'état de l'art tant qualitativement que quantitativement. Nous recommandons de visionner la vidéo supplémentaire.