il y a 3 jours

Résumé

Le doublage cinématographique consiste à synthétiser la parole à partir de scénarios conditionnés par des scènes vidéo, en exigeant une synchronisation labiale précise, un transfert fidèle du timbre vocal, ainsi qu'une modélisation appropriée de l'identité des personnages et de leurs émotions. Toutefois, les méthodes existantes se heurtent à deux limitations majeures : (1) les ensembles de données multimodaux de haute qualité pour le doublage sont limités en échelle, souffrent de taux élevés d'erreurs de transcription, présentent des annotations éparses, reposent sur un étiquetage manuel coûteux et se restreignent aux scènes en monologue, autant de facteurs qui entravent l'entraînement efficace des modèles ; (2) les modèles de doublage actuels s'appuient exclusivement sur la région labiale pour apprendre l'alignement audiovisuel, ce qui limite leur applicabilité aux scènes cinématographiques réalistes complexes et se traduit par des performances sous-optimales en matière de synchronisation labiale, de qualité de la parole et d'expressivité émotionnelle. Pour remédier à ces problèmes, nous proposons FunCineForge, qui intègre une chaîne de production end-to-end pour la création d'ensembles de données de doublage à grande échelle ainsi qu'un modèle de doublage fondé sur un MLLM, conçu pour des scènes cinématographiques variées. Grâce à cette chaîne, nous avons construit le premier ensemble de données de doublage télévisuel chinois doté d'annotations riches et avons démontré la haute qualité de ces données. Des expériences menées sur des scènes de monologue, de narration, de dialogue et multi-locuteurs montrent que notre modèle de doublage surpasse systématiquement les méthodes de l'état de l'art (SOTA) en termes de qualité audio, de synchronisation labiale, de transfert de timbre et de suivi des instructions.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 jours

Text-to-Speech

Multimodal

Jiaxuan Liu Yang Xiang Han Zhao Xiangang Li Zhenhua Ling

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 jours

Text-to-Speech

Multimodal

Jiaxuan Liu Yang Xiang Han Zhao Xiangang Li Zhenhua Ling

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

FunCineForge : Une boîte à outils de jeu de données unifiée et un modèle pour le doublage cinématographique en zéro-shot dans des scènes cinématographiques diversifiées

Jiaxuan Liu Yang Xiang Han Zhao Xiangang Li Zhenhua Ling

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

FunCineForge : Une boîte à outils de jeu de données unifiée et un modèle pour le doublage cinématographique en zéro-shot dans des scènes cinématographiques diversifiées

Jiaxuan Liu Yang Xiang Han Zhao Xiangang Li Zhenhua Ling

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

FunCineForge : Une boîte à outils de jeu de données unifiée et un modèle pour le doublage cinématographique en zéro-shot dans des scènes cinématographiques diversifiées

Jiaxuan Liu Yang Xiang Han Zhao Xiangang Li Zhenhua Ling

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters