HyperAI

Ensemble De Données De Conversion De Texte En Vidéo À Grande Échelle VidProM

Date

il y a un an

Organisation

Université du Zhejiang

URL de publication

huggingface.co

Aide au téléchargement
特色图像

L'ensemble de données VidProM est le premier ensemble de données d'invite texte-vidéo à grande échelle pour utilisateurs réels développé conjointement par l'Université de technologie de Sydney et l'Université du Zhejiang. Il contient 1,67 million d'invites texte-vidéo uniques et 6,69 millions de vidéos générées par quatre modèles de diffusion de pointe.

L'ensemble de données fournit non seulement une grande quantité de contenu vidéo, mais inclut également la probabilité NSFW (Not Safe For Work) associée à chaque invite, des intégrations d'invites de 3072 dimensions et des métadonnées associées supplémentaires. Son processus de construction comprend la collecte de fichiers HTML sources, l'extraction et l'intégration d'indices textuels, l'attribution de probabilités NSFW, l'exploration et la génération de vidéos, et enfin le filtrage des indices sémantiquement uniques.

La sortie de VidProM vise à promouvoir la recherche dans le domaine de la génération de texte en vidéo, couvrant des aspects tels que l'évaluation des modèles, la génération de vidéos efficaces, la détection de fausses vidéos et la détection des droits d'auteur sur les vidéos, fournissant aux chercheurs des ressources précieuses pour explorer et développer de nouvelles techniques de génération de texte en vidéo.