MUVR 多模态非裁剪视频检索基准
MUVR 是由南京航空航天大学联合南京大学、香港理工大学于 2025 年发布的一个面向多模态非裁剪视频检索任务的基准数据集,相关论文成果为 MUVR: A Multi-Modal Untrimmed Video Retrieval Benchmark with Multi-Level Visual Correspondence,已入选 NeurIPS 2025 Datasets and Benchmarks,旨在推动长视频平台场景下的视频检索研究。
该数据集包含来自 Bilibili 的约 53,000 条未剪辑视频、 1,050 条多模态查询以及 84,000 条查询 – 视频匹配关系,覆盖新闻、旅行、舞蹈等多种常见视频类型。为清晰区分不同层次的匹配关系,数据集定义了六种视觉对应层级(复制、事件、场景、实例、动作和其他),采用一对多的检索设定,每条查询可对应多个包含相关内容的完整视频。查询形式包括长文本描述、视频标签提示和掩码提示,用于表达细粒度的检索需求。
