2 个月前

UniVTG：迈向统一的视频-语言时间定位

Lin, Kevin Qinghong ; Zhang, Pengchuan ; Chen, Joya ; Pramanick, Shraman ; Gao, Difei ; Wang, Alex Jinpeng ; Yan, Rui ; Shou, Mike Zheng

查看论文详情

摘要

视频时间定位（VTG）旨在根据自定义语言查询（如句子或单词）从视频中定位目标片段（例如连续区间或不相连的镜头），对于社交媒体上的视频浏览至关重要。目前大多数方法都开发了特定任务的模型，这些模型使用特定类型的标签进行训练，例如时刻检索（时间区间）和亮点检测（价值曲线），这限制了它们在各种VTG任务和标签中的泛化能力。本文中，我们提出了一个统一的多样化VTG标签和任务的方法，称为UniVTG，沿着三个方向展开：首先，我们重新审视了广泛范围内的VTG标签和任务，并定义了一个统一的公式。基于此，我们开发了数据注释方案以创建可扩展的伪监督。其次，我们开发了一种有效且灵活的时间定位模型，该模型能够应对每个任务并充分利用每个标签。最后，得益于统一框架，我们能够从大规模多样化的标签中解锁时间定位预训练，并发展更强的时间定位能力，例如零样本定位。我们在三个任务（时刻检索、亮点检测和视频摘要）上进行了广泛的实验，涉及七个数据集（QVHighlights、Charades-STA、TACoS、Ego4D、YouTube Highlights、TVSum 和 QFVS），结果证明了所提出框架的有效性和灵活性。代码已发布在 https://github.com/showlab/UniVTG。