SpeakerVid-5M : Un grand ensemble de données de haute qualité pour la génération d'interactions dyadiques audiovisuelles humaines

Le développement rapide des grands modèles a catalysé des avancées significatives dans le domaine de l'humain numérique. Ces méthodologies avancées offrent des solutions à haute fidélité pour la conduite et le rendu d'avatars, ce qui pousse les universités à se concentrer sur le prochain grand défi : l'humain virtuel dyadique audiovisuel. Pour faciliter la recherche dans ce domaine émergent, nous présentons le jeu de données SpeakerVid-5M, le premier jeu de données à grande échelle et de haute qualité conçu pour la génération d'humains virtuels dyadiques audiovisuels. Totalisant plus de 8 743 heures, SpeakerVid-5M contient plus de 5,2 millions de clips vidéo de portraits humains. Il couvre une diversité d'échelles et de types d'interaction, y compris les discours monadiques, l'écoute et les conversations dyadiques. De manière cruciale, le jeu de données est structuré selon deux dimensions clés : le type d'interaction et la qualité des données. Premièrement, il est catégorisé en quatre types (branche dialogue, branche unique, branche écoute et branche multi-tour) en fonction du scénario d'interaction. Deuxièmement, il est stratifié en un sous-ensemble pré-entraîné à grande échelle et un sous-ensemble curatif de haute qualité pour l'Ajustement Supervisé Fin (ASF). Cette structure double permet une gamme étendue de tâches liées aux humains virtuels 2D. En outre, nous fournissons une ligne de base basée sur un modèle autorégressif (AR) pour la conversation vidéo entraînée sur ces données, accompagnée d'un ensemble dédié de métriques et de données de test servant de référence VidChatBench pour les travaux futurs. Le jeu de données ainsi que le code correspondant pour le traitement des données seront mis à disposition publiquement. Page du projet : https://dorniwang.github.io/SpeakerVid-5M/