
摘要
我们提出了多模态未剪辑视频检索任务(Multi-modal Untrimmed Video Retrieval, MUVR),并构建了一个新的基准数据集,旨在推动长视频平台上的视频检索技术发展。MUVR的目标是利用多模态查询,从未剪辑视频中检索出包含相关片段的视频。该任务具有以下三个核心特点:1)实用的检索范式:MUVR支持以视频为中心的多模态查询,通过长文本描述、视频标签提示和掩码提示等方式,精准表达细粒度的检索需求。其采用“一到多”检索范式,聚焦于未剪辑视频,专为长视频平台的应用场景量身定制。2)多层次视觉对应关系:为覆盖常见的视频类别(如新闻、旅游、舞蹈等),并精确界定检索匹配标准,我们基于用户关注并希望检索的核心视频内容(如新闻事件、旅游地点、舞蹈动作等)构建了多层次的视觉对应体系。该体系涵盖六个层级:复制(copy)、事件(event)、场景(scene)、实例(instance)、动作(action)及其他(others)。3)全面的评估标准:我们设计了MUVR的三个版本(即Base、Filter、QA)。MUVR-Base与MUVR-Filter用于评估视频检索模型的性能,而MUVR-QA则以问答形式评估多模态大语言模型(MLLMs)的能力。此外,我们还提出了一种“重排序得分”(Reranking Score),用于衡量MLLMs在重排序任务中的表现。MUVR数据集包含来自视频平台Bilibili的5.3万段未剪辑视频,共包含1,050个多模态查询和8.4万条匹配结果。我们对3个最先进的视频检索模型、6个基于图像的视觉语言模型(VLMs)以及10个MLLMs进行了全面评估。实验结果揭示了现有检索方法在处理未剪辑视频和多模态查询方面的局限性,同时也暴露出MLLMs在多视频理解与重排序能力上的不足。