MiraData 是由腾讯 PCG ARC Lab 与香港中文大学于 2024 年合作开发的大型视频数据集,专为长视频生成任务设计,论文成果为「MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions」
与以往短视频剪辑不同,MiraData 专注于 1 至 2 分钟的未剪辑视频片段(平均时长 72.1 秒),每个视频都配有不同角度的结构化描述,描述平均长度为 318 个字,确保了视频内容的全面呈现。包括主体描述、背景、风格、摄像机运动、简短描述和密集描述六种类型的描述,增强了数据集的描述深度。
为了保证高质量的片段,研究团队根据美学、运动强度和颜色将数据集过滤为五个子集,选择视觉质量高且运动强度强的片段。为了获得详细且准确的描述,研究团队首先使用最先进的字幕生成器生成简短字幕,然后使用 GPT-4V 对其进行丰富,从而生成密集字幕。为了从多个角度提供细粒度的视频描述。
MiraData 数据集为长视频生成、视频内容理解与生成领域的研究者提供了宝贵的资源和新的挑战机遇。
做种 1
下载中 0
已完成 32
总下载 47