VidProM 数据集是由悉尼科技大学与浙江大学联合研发的首个大规模真实用户文本到视频提示数据集,包含 167 万个独特的文本到视频提示和 669 万个由四种最先进的扩散模型生成的视频。
该数据集不仅提供了大量的视频内容,还包括了与每个提示相关的 NSFW (Not Safe For Work) 概率、 3072 维的提示嵌入以及额外的相关元数据。其构建过程包括收集源 HTML 文件、提取和嵌入文本提示,为其分配 NSFW 概率,爬取和生成视频,最后通过筛选出语义上唯一的提示。
VidProM 的发布旨在推动文本到视频生成领域的研究,涵盖模型评估、高效视频生成、假视频检测和视频版权检测等方面,为研究人员提供了宝贵的资源来探索和开发新的文本到视频生成技术。