
摘要
近年来,像CLIP这类大规模预训练方法在文本-视频检索等多模态研究中取得了显著进展。在CLIP框架中,Transformer模型对于建模复杂的多模态关系至关重要。然而,在CLIP的视觉Transformer中,关键的视觉标记化(visual tokenization)过程会生成离散的视觉标记序列,由于视频中连续且相似的帧具有高度冗余性,该过程会产生大量同质化标记,显著增加计算开销,制约了视频检索模型在网页应用中的实际部署。为减少冗余视频标记的数量,本文提出一种多段标记聚类算法,旨在识别最具代表性的标记并剔除非必要标记。鉴于帧冗余主要出现在连续帧之间,我们首先将视频划分为多个片段,并在片段级别进行聚类。随后,从每个片段中选取中心标记(center tokens),将其拼接为新的标记序列,同时有效保留了原始的时间-空间关系。我们实例化了两种聚类算法,以高效地在高维空间中寻找确定性的中心点(medoids),并迭代地对聚类组进行划分。通过这一标记聚类与中心标记选择过程,我们成功减少了冗余视觉标记,显著降低了计算成本。此外,该方法进一步增强了视频与文本表示之间的片段级语义对齐,强化了来自同一片段内帧的标记之间的时空交互能力。本文提出的该方法被命名为CenterCLIP,在典型的文本-视频基准测试中显著超越现有最先进方法,同时在最佳情况下将训练内存消耗降低35%,推理速度提升14%。代码已公开,地址为:\href{https://github.com/mzhaoshuai/CenterCLIP}{https://github.com/mzhaoshuai/CenterCLIP}。