2 个月前

部分相关视频检索

Jianfeng Dong; Xianke Chen; Minsong Zhang; Xun Yang; Shujie Chen; Xirong Li; Xun Wang
部分相关视频检索
摘要

当前用于文本到视频检索(Text-to-Video Retrieval, T2VR)的方法大多是在面向视频字幕的数据集上进行训练和测试,如MSVD、MSR-VTT和VATEX。这些数据集的一个关键特性是假设视频在时间上已经预先剪辑过,且时长较短,而提供的字幕能够很好地描述视频的核心内容。因此,对于给定的一对视频和字幕,视频应完全与字幕相关。然而,在实际应用中,由于查询内容事先未知,预先剪辑的视频片段可能无法包含足够的内容来完全满足查询需求。这表明现有文献与现实世界之间存在差距。为了填补这一差距,本文提出了一种新的T2VR子任务——部分相关视频检索(Partially Relevant Video Retrieval, PRVR)。如果一个未剪辑的视频中包含与给定文本查询相关的时刻,则该视频被视为部分相关。PRVR的目标是从大量未剪辑的视频集合中检索出这样的部分相关视频。PRVR与单个视频时刻检索和视频语料库时刻检索不同,因为后两者旨在检索具体的时刻而非未剪辑的完整视频。我们将PRVR表述为一个多实例学习(Multiple Instance Learning, MIL)问题,在此问题中,一个视频同时被视为一组视频片段和一组视频帧。片段和帧分别代表了不同时间尺度上的视频内容。我们提出了一种多尺度相似度学习(Multi-Scale Similarity Learning, MS-SL)网络,该网络联合学习片段级和帧级的相似度以实现PRVR。在三个数据集(TVR、ActivityNet Captions 和 Charades-STA)上进行的广泛实验验证了所提方法的有效性。此外,我们还展示了该方法可以用于改进视频语料库时刻检索。

部分相关视频检索 | 最新论文 | HyperAI超神经