HyperAIHyperAI

Command Palette

Search for a command to run...

SpeakerVid-5M : Un grand ensemble de données de haute qualité pour la génération d'interactions dyadiques audiovisuelles humaines

Youliang Zhang Zhaoyang Li Duomin Wang Jiahe Zhang Deyu Zhou Zixin Yin Xili Dai Gang Yu Xiu Li

Résumé

Le développement rapide des grands modèles a catalysé des avancées significatives dans le domaine de l'humain numérique. Ces méthodologies avancées offrent des solutions à haute fidélité pour la conduite et le rendu d'avatars, ce qui pousse les universités à se concentrer sur le prochain grand défi : l'humain virtuel dyadique audiovisuel. Pour faciliter la recherche dans ce domaine émergent, nous présentons le jeu de données SpeakerVid-5M, le premier jeu de données à grande échelle et de haute qualité conçu pour la génération d'humains virtuels dyadiques audiovisuels. Totalisant plus de 8 743 heures, SpeakerVid-5M contient plus de 5,2 millions de clips vidéo de portraits humains. Il couvre une diversité d'échelles et de types d'interaction, y compris les discours monadiques, l'écoute et les conversations dyadiques. De manière cruciale, le jeu de données est structuré selon deux dimensions clés : le type d'interaction et la qualité des données. Premièrement, il est catégorisé en quatre types (branche dialogue, branche unique, branche écoute et branche multi-tour) en fonction du scénario d'interaction. Deuxièmement, il est stratifié en un sous-ensemble pré-entraîné à grande échelle et un sous-ensemble curatif de haute qualité pour l'Ajustement Supervisé Fin (ASF). Cette structure double permet une gamme étendue de tâches liées aux humains virtuels 2D. En outre, nous fournissons une ligne de base basée sur un modèle autorégressif (AR) pour la conversation vidéo entraînée sur ces données, accompagnée d'un ensemble dédié de métriques et de données de test servant de référence VidChatBench pour les travaux futurs. Le jeu de données ainsi que le code correspondant pour le traitement des données seront mis à disposition publiquement. Page du projet : https://dorniwang.github.io/SpeakerVid-5M/


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SpeakerVid-5M : Un grand ensemble de données de haute qualité pour la génération d'interactions dyadiques audiovisuelles humaines | Articles | HyperAI