2 个月前
FlashVTG:视频时间定位的特征层叠与自适应评分处理网络
Cao, Zhuo ; Zhang, Bingqing ; Du, Heming ; Yu, Xin ; Li, Xue ; Wang, Sen

摘要
文本引导的视频时间定位(VTG)旨在根据文本描述在未剪辑的视频中定位相关的片段,包括两个子任务:时刻检索(MR)和高光检测(HD)。尽管先前的方法已经取得了令人瞩目的成果,但检索短视频片段仍然具有挑战性。这主要是由于依赖稀疏且有限的解码器查询,这些查询极大地限制了预测的准确性。此外,次优结果往往是因为先前的方法基于孤立的预测进行排序,忽略了更广泛的视频上下文。为了解决这些问题,我们引入了FlashVTG框架,该框架包含一个时间特征层叠(TFL)模块和一个自适应评分精炼(ASR)模块。TFL模块替代了传统的解码器结构,以捕捉多个时间尺度上的细微视频内容变化;而ASR模块通过整合相邻时刻和多时间尺度特征的上下文来改进预测排序。大量实验表明,FlashVTG在四个广泛使用的数据集上均实现了最先进的性能,无论是MR还是HD。具体而言,在QVHighlights数据集上,它将MR的mAP提高了5.8%,将HD的mAP提高了3.3%。对于短时刻检索,FlashVTG将mAP提升至之前最佳性能的125%。所有这些改进都是在不增加训练负担的情况下实现的,突显了其有效性。我们的代码可在https://github.com/Zhuo-Cao/FlashVTG 获取。