Command Palette
Search for a command to run...
TalkVid : Un grand jeu de données diversifié pour la synthèse de visages parlants pilotée par le son

Résumé
La synthèse de visages parlants pilotée par l’audio a atteint un niveau remarquable de photoréalisme, mais les modèles de pointe (SOTA) présentent une faille critique : ils manquent de généralisation face à la diversité humaine complète en matière d’ethnie, de langue et de groupes d’âge. Nous affirmons que cet écart de généralisation est un symptôme direct des limites des jeux de données d’entraînement actuels, qui manquent à la fois de taille, de qualité et de diversité nécessaires. Pour relever ce défi, nous introduisons TalkVid, un nouveau jeu de données à grande échelle, de haute qualité et diversifié, comprenant 1 244 heures de vidéos provenant de 7 729 locuteurs uniques. TalkVid a été soigneusement constitué grâce à un pipeline automatisé multi-étapes rigoureux, qui filtre notamment sur la stabilité du mouvement, la qualité esthétique et les détails du visage, et a été validé par des jugements humains afin d’assurer sa fiabilité. En outre, nous avons conçu et publié TalkVid-Bench, un ensemble d’évaluation stratifié composé de 500 extraits soigneusement équilibrés selon des axes démographiques et linguistiques clés. Nos expériences montrent qu’un modèle entraîné sur TalkVid surpasser les modèles entraînés sur les jeux de données antérieurs, en exhibant une meilleure généralisation croisée entre jeux de données. Plus important encore, notre analyse sur TalkVid-Bench révèle des disparités de performance entre sous-groupes, masquées par les métriques agrégées traditionnelles, soulignant ainsi la nécessité de cet ensemble pour les recherches futures. Le code et les données sont disponibles à l’adresse suivante : https://github.com/FreedomIntelligence/TalkVid
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.