il y a 5 mois

Shunian Chen Hejin Huang Yexin Liu Zihan Ye Pengcheng Chen Chenghao Zhu Michael Guan Rongsheng Wang Junying Chen Guanbin Li

Résumé

La synthèse de visages parlants pilotée par l’audio a atteint un niveau remarquable de photoréalisme, mais les modèles de pointe (SOTA) présentent une faille critique : ils manquent de généralisation face à la diversité humaine complète en matière d’ethnie, de langue et de groupes d’âge. Nous affirmons que cet écart de généralisation est un symptôme direct des limites des jeux de données d’entraînement actuels, qui manquent à la fois de taille, de qualité et de diversité nécessaires. Pour relever ce défi, nous introduisons TalkVid, un nouveau jeu de données à grande échelle, de haute qualité et diversifié, comprenant 1 244 heures de vidéos provenant de 7 729 locuteurs uniques. TalkVid a été soigneusement constitué grâce à un pipeline automatisé multi-étapes rigoureux, qui filtre notamment sur la stabilité du mouvement, la qualité esthétique et les détails du visage, et a été validé par des jugements humains afin d’assurer sa fiabilité. En outre, nous avons conçu et publié TalkVid-Bench, un ensemble d’évaluation stratifié composé de 500 extraits soigneusement équilibrés selon des axes démographiques et linguistiques clés. Nos expériences montrent qu’un modèle entraîné sur TalkVid surpasser les modèles entraînés sur les jeux de données antérieurs, en exhibant une meilleure généralisation croisée entre jeux de données. Plus important encore, notre analyse sur TalkVid-Bench révèle des disparités de performance entre sous-groupes, masquées par les métriques agrégées traditionnelles, soulignant ainsi la nécessité de cet ensemble pour les recherches futures. Le code et les données sont disponibles à l’adresse suivante : https://github.com/FreedomIntelligence/TalkVid

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 5 mois

Shunian Chen Hejin Huang Yexin Liu Zihan Ye Pengcheng Chen Chenghao Zhu Michael Guan Rongsheng Wang Junying Chen Guanbin Li

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 5 mois

Shunian Chen Hejin Huang Yexin Liu Zihan Ye Pengcheng Chen Chenghao Zhu Michael Guan Rongsheng Wang Junying Chen Guanbin Li

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

TalkVid : Un grand jeu de données diversifié pour la synthèse de visages parlants pilotée par le son | Articles | HyperAI

Command Palette

TalkVid : Un grand jeu de données diversifié pour la synthèse de visages parlants pilotée par le son

Shunian Chen Hejin Huang Yexin Liu Zihan Ye Pengcheng Chen Chenghao Zhu Michael Guan Rongsheng Wang Junying Chen Guanbin Li3 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

TalkVid : Un grand jeu de données diversifié pour la synthèse de visages parlants pilotée par le son

Shunian Chen Hejin Huang Yexin Liu Zihan Ye Pengcheng Chen Chenghao Zhu Michael Guan Rongsheng Wang Junying Chen Guanbin Li3 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

TalkVid : Un grand jeu de données diversifié pour la synthèse de visages parlants pilotée par le son

Shunian Chen Hejin Huang Yexin Liu Zihan Ye Pengcheng Chen Chenghao Zhu Michael Guan Rongsheng Wang Junying Chen Guanbin Li3 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Shunian Chen Hejin Huang Yexin Liu Zihan Ye Pengcheng Chen Chenghao Zhu Michael Guan Rongsheng Wang Junying Chen Guanbin Li

Shunian Chen Hejin Huang Yexin Liu Zihan Ye Pengcheng Chen Chenghao Zhu Michael Guan Rongsheng Wang Junying Chen Guanbin Li

Shunian Chen Hejin Huang Yexin Liu Zihan Ye Pengcheng Chen Chenghao Zhu Michael Guan Rongsheng Wang Junying Chen Guanbin Li