8 个月前

摘要

近年来，基于CLIP的文本到视频检索方法经历了快速发展。其主要演进方向是利用更广泛的视觉和文本线索来实现对齐。具体而言，这些性能卓越的方法通常设计了一个复杂的融合模块，用于句子（单词）与视频（帧）之间的交互，尽管计算复杂度极高。然而，这些方法在特征利用和检索效率方面并非最优。为了解决这一问题，我们在训练阶段采用了多粒度视觉特征学习，确保模型能够全面捕捉从抽象到详细层次的视觉内容特征。为了更好地利用多粒度特征，我们在检索阶段设计了两阶段检索架构。该方案巧妙地平衡了检索内容的粗细粒度，并在检索效果和效率之间达到了和谐的均衡。具体来说，在训练阶段，我们设计了一个无参数的文本门控交互模块（Text-Gated Interaction Block, TIB），用于细粒度视频表示学习，并嵌入了一个额外的皮尔逊约束（Pearson Constraint），以优化跨模态表示学习。在检索阶段，我们首先使用粗粒度视频表示快速召回前k个候选对象，然后通过细粒度视频表示重新排序这些候选对象。大量实验表明，我们的方法在四个基准数据集上展示了高效性和有效性。值得注意的是，我们的方法在性能上与当前最先进的方法相当，但速度却快近50倍。

源 PDF