HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

TalkVid : Un grand jeu de données diversifié pour la synthèse de visages parlants pilotée par le son

TalkVid : Un grand jeu de données diversifié pour la synthèse de visages parlants pilotée par le son

Résumé

La synthèse de visages parlants pilotée par l’audio a atteint un niveau remarquable de photoréalisme, mais les modèles de pointe (SOTA) présentent une faille critique : ils manquent de généralisation face à la diversité humaine complète en matière d’ethnie, de langue et de groupes d’âge. Nous affirmons que cet écart de généralisation est un symptôme direct des limites des jeux de données d’entraînement actuels, qui manquent à la fois de taille, de qualité et de diversité nécessaires. Pour relever ce défi, nous introduisons TalkVid, un nouveau jeu de données à grande échelle, de haute qualité et diversifié, comprenant 1 244 heures de vidéos provenant de 7 729 locuteurs uniques. TalkVid a été soigneusement constitué grâce à un pipeline automatisé multi-étapes rigoureux, qui filtre notamment sur la stabilité du mouvement, la qualité esthétique et les détails du visage, et a été validé par des jugements humains afin d’assurer sa fiabilité. En outre, nous avons conçu et publié TalkVid-Bench, un ensemble d’évaluation stratifié composé de 500 extraits soigneusement équilibrés selon des axes démographiques et linguistiques clés. Nos expériences montrent qu’un modèle entraîné sur TalkVid surpasser les modèles entraînés sur les jeux de données antérieurs, en exhibant une meilleure généralisation croisée entre jeux de données. Plus important encore, notre analyse sur TalkVid-Bench révèle des disparités de performance entre sous-groupes, masquées par les métriques agrégées traditionnelles, soulignant ainsi la nécessité de cet ensemble pour les recherches futures. Le code et les données sont disponibles à l’adresse suivante : https://github.com/FreedomIntelligence/TalkVid

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
TalkVid : Un grand jeu de données diversifié pour la synthèse de visages parlants pilotée par le son | Articles de recherche | HyperAI