4 个月前
面向高效和有效的文本到视频检索的粗细视觉表征学习
Kaibin Tian; Yanhua Cheng; Yi Liu; Xinglin Hou; Quan Chen; Han Li

摘要
近年来,基于CLIP的文本到视频检索方法经历了快速发展。其主要演进方向是利用更广泛的视觉和文本线索来实现对齐。具体而言,这些性能卓越的方法通常设计了一个复杂的融合模块,用于句子(单词)与视频(帧)之间的交互,尽管计算复杂度极高。然而,这些方法在特征利用和检索效率方面并非最优。为了解决这一问题,我们在训练阶段采用了多粒度视觉特征学习,确保模型能够全面捕捉从抽象到详细层次的视觉内容特征。为了更好地利用多粒度特征,我们在检索阶段设计了两阶段检索架构。该方案巧妙地平衡了检索内容的粗细粒度,并在检索效果和效率之间达到了和谐的均衡。具体来说,在训练阶段,我们设计了一个无参数的文本门控交互模块(Text-Gated Interaction Block, TIB),用于细粒度视频表示学习,并嵌入了一个额外的皮尔逊约束(Pearson Constraint),以优化跨模态表示学习。在检索阶段,我们首先使用粗粒度视频表示快速召回前k个候选对象,然后通过细粒度视频表示重新排序这些候选对象。大量实验表明,我们的方法在四个基准数据集上展示了高效性和有效性。值得注意的是,我们的方法在性能上与当前最先进的方法相当,但速度却快近50倍。