HyperAIHyperAI

Command Palette

Search for a command to run...

FunCineForge : Une boîte à outils de jeu de données unifiée et un modèle pour le doublage cinématographique en zéro-shot dans des scènes cinématographiques diversifiées

Jiaxuan Liu Yang Xiang Han Zhao Xiangang Li Zhenhua Ling

Résumé

Le doublage cinématographique consiste à synthétiser la parole à partir de scénarios conditionnés par des scènes vidéo, en exigeant une synchronisation labiale précise, un transfert fidèle du timbre vocal, ainsi qu'une modélisation appropriée de l'identité des personnages et de leurs émotions. Toutefois, les méthodes existantes se heurtent à deux limitations majeures : (1) les ensembles de données multimodaux de haute qualité pour le doublage sont limités en échelle, souffrent de taux élevés d'erreurs de transcription, présentent des annotations éparses, reposent sur un étiquetage manuel coûteux et se restreignent aux scènes en monologue, autant de facteurs qui entravent l'entraînement efficace des modèles ; (2) les modèles de doublage actuels s'appuient exclusivement sur la région labiale pour apprendre l'alignement audiovisuel, ce qui limite leur applicabilité aux scènes cinématographiques réalistes complexes et se traduit par des performances sous-optimales en matière de synchronisation labiale, de qualité de la parole et d'expressivité émotionnelle. Pour remédier à ces problèmes, nous proposons FunCineForge, qui intègre une chaîne de production end-to-end pour la création d'ensembles de données de doublage à grande échelle ainsi qu'un modèle de doublage fondé sur un MLLM, conçu pour des scènes cinématographiques variées. Grâce à cette chaîne, nous avons construit le premier ensemble de données de doublage télévisuel chinois doté d'annotations riches et avons démontré la haute qualité de ces données. Des expériences menées sur des scènes de monologue, de narration, de dialogue et multi-locuteurs montrent que notre modèle de doublage surpasse systématiquement les méthodes de l'état de l'art (SOTA) en termes de qualité audio, de synchronisation labiale, de transfert de timbre et de suivi des instructions.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp