Command Palette
Search for a command to run...
FunCineForge : Une boîte à outils de jeu de données unifiée et un modèle pour le doublage cinématographique en zéro-shot dans des scènes cinématographiques diversifiées
FunCineForge : Une boîte à outils de jeu de données unifiée et un modèle pour le doublage cinématographique en zéro-shot dans des scènes cinématographiques diversifiées
Jiaxuan Liu Yang Xiang Han Zhao Xiangang Li Zhenhua Ling
Résumé
Le doublage cinématographique consiste à synthétiser la parole à partir de scénarios conditionnés par des scènes vidéo, en exigeant une synchronisation labiale précise, un transfert fidèle du timbre vocal, ainsi qu'une modélisation appropriée de l'identité des personnages et de leurs émotions. Toutefois, les méthodes existantes se heurtent à deux limitations majeures : (1) les ensembles de données multimodaux de haute qualité pour le doublage sont limités en échelle, souffrent de taux élevés d'erreurs de transcription, présentent des annotations éparses, reposent sur un étiquetage manuel coûteux et se restreignent aux scènes en monologue, autant de facteurs qui entravent l'entraînement efficace des modèles ; (2) les modèles de doublage actuels s'appuient exclusivement sur la région labiale pour apprendre l'alignement audiovisuel, ce qui limite leur applicabilité aux scènes cinématographiques réalistes complexes et se traduit par des performances sous-optimales en matière de synchronisation labiale, de qualité de la parole et d'expressivité émotionnelle. Pour remédier à ces problèmes, nous proposons FunCineForge, qui intègre une chaîne de production end-to-end pour la création d'ensembles de données de doublage à grande échelle ainsi qu'un modèle de doublage fondé sur un MLLM, conçu pour des scènes cinématographiques variées. Grâce à cette chaîne, nous avons construit le premier ensemble de données de doublage télévisuel chinois doté d'annotations riches et avons démontré la haute qualité de ces données. Des expériences menées sur des scènes de monologue, de narration, de dialogue et multi-locuteurs montrent que notre modèle de doublage surpasse systématiquement les méthodes de l'état de l'art (SOTA) en termes de qualité audio, de synchronisation labiale, de transfert de timbre et de suivi des instructions.