
摘要
在文本到视频检索(Text-to-Video Retrieval, T2VR)任务中,目标是通过即兴的文本查询检索未标注的视频,当前基于CLIP的方法占据主导地位。与CLIP4Clip这类高效且紧凑的模型相比,当前最先进的模型往往通过细粒度的跨模态特征交互与匹配来计算视频与文本之间的相似性,这虽然提升了性能,却也使其在大规模T2VR应用中的可扩展性受到质疑。为此,我们提出了TeachCLIP,一种使基于CLIP4Clip的轻量级学生网络能够从更先进但计算开销更大的教师模型中学习的方法。为实现从教师模型向学生模型传递细粒度跨模态知识的通道,我们在CLIP4Clip的基础上引入了一个简洁的注意力帧特征聚合(Attentional Frame-Feature Aggregation, AFA)模块。该模块在设计上不引入额外的存储或计算开销,适用于检索阶段。教师模型计算出的帧-文本相关性得分被用作软标签,用于监督AFA模块生成的注意力权重。在多个公开数据集上的大量实验验证了所提方法的有效性。TeachCLIP在保持与CLIP4Clip相当的高效性与紧凑性的同时,实现了接近当前最先进(SOTA)的性能表现。