2 个月前
$R^2$-调优:高效的图像到视频迁移学习用于视频时间定位
Liu, Ye ; He, Jixuan ; Li, Wanhua ; Kim, Junsik ; Wei, Donglai ; Pfister, Hanspeter ; Chen, Chang Wen

摘要
视频时间定位(VTG)是一个细粒度的视频理解问题,旨在根据自然语言查询在未剪辑的视频中定位相关的片段。现有的大多数VTG模型都是基于帧级CLIP特征构建的,并通过额外的时间主干网络(例如SlowFast)及其复杂的时间推理机制进行辅助。在这项工作中,我们认为CLIP本身已经展现出细粒度时空建模的巨大潜力,因为每一层都提供了不同粒度级别下独特而有用的信息。受此启发,我们提出了反向递归调优($R^2$-Tuning),这是一种参数和内存高效的迁移学习框架,用于视频时间定位。我们的方法学习了一个轻量级的$R^2$模块,该模块仅包含总参数量的1.5%,以执行逐步的时空建模。从CLIP的最后一层开始,$R^2$模块反复聚合来自更早层的空间特征,然后根据给定的查询细化时间相关性,从而形成一种由粗到精的方案。即使没有额外的时间主干网络,$R^2$-Tuning在六个公开基准数据集(即QVHighlights、Charades-STA、Ego4D-NLQ、TACoS、YouTube Highlights和TVSum)上的三个VTG任务(即时刻检索、高光检测和视频摘要)中仍达到了最先进的性能,展示了所提方案的重要性和有效性。我们的代码可在https://github.com/yeliudev/R2-Tuning获取。