17 天前

基于对比学习的视频检索中的时序上下文聚合

Jie Shao, Xin Wen, Bingchen Zhao, Xiangyang Xue
基于对比学习的视频检索中的时序上下文聚合
摘要

当前内容感知的视频检索研究亟需更高层次的视频表征,以描述相关事件、场景等之间的长程语义依赖关系。然而,现有方法通常将视频帧视为独立图像或短片段进行处理,难以有效建模长程语义依赖。本文提出一种名为TCA(Temporal Context Aggregation for Video Retrieval)的视频表征学习框架,该框架利用自注意力机制整合帧级特征间的长程时间上下文信息。为在视频检索数据集上训练该模型,我们进一步提出一种监督对比学习方法,该方法能够自动进行困难负样本挖掘,并结合记忆库(memory bank)机制以扩充负样本容量。在多个视频检索任务(包括CC_WEB_VIDEO、FIVR-200K和EVVE)上的大量实验表明,所提方法在使用视频级特征时,相较当前最优方法在FIVR-200K数据集上实现了约17%的mAP提升;同时,在推理速度方面,相较基于帧级特征的方法,实现了22倍的加速,且仍保持具有竞争力的性能表现。