2 个月前

UniVTG:迈向统一的视频-语言时间定位

Lin, Kevin Qinghong ; Zhang, Pengchuan ; Chen, Joya ; Pramanick, Shraman ; Gao, Difei ; Wang, Alex Jinpeng ; Yan, Rui ; Shou, Mike Zheng
UniVTG:迈向统一的视频-语言时间定位
摘要

视频时间定位(VTG)旨在根据自定义语言查询(如句子或单词)从视频中定位目标片段(例如连续区间或不相连的镜头),对于社交媒体上的视频浏览至关重要。目前大多数方法都开发了特定任务的模型,这些模型使用特定类型的标签进行训练,例如时刻检索(时间区间)和亮点检测(价值曲线),这限制了它们在各种VTG任务和标签中的泛化能力。本文中,我们提出了一个统一的多样化VTG标签和任务的方法,称为UniVTG,沿着三个方向展开:首先,我们重新审视了广泛范围内的VTG标签和任务,并定义了一个统一的公式。基于此,我们开发了数据注释方案以创建可扩展的伪监督。其次,我们开发了一种有效且灵活的时间定位模型,该模型能够应对每个任务并充分利用每个标签。最后,得益于统一框架,我们能够从大规模多样化的标签中解锁时间定位预训练,并发展更强的时间定位能力,例如零样本定位。我们在三个任务(时刻检索、亮点检测和视频摘要)上进行了广泛的实验,涉及七个数据集(QVHighlights、Charades-STA、TACoS、Ego4D、YouTube Highlights、TVSum 和 QFVS),结果证明了所提出框架的有效性和灵活性。代码已发布在 https://github.com/showlab/UniVTG。

UniVTG:迈向统一的视频-语言时间定位 | 最新论文 | HyperAI超神经