摘要

在文本-视频检索任务中，目标是学习一种跨模态相似性函数，使得相关文本与视频对的得分高于不相关对。然而，视频所包含的信息量远超文本，而文本通常仅描述视频的局部片段，且在语义上最接近视频中的特定帧。因此，对于给定的文本，检索模型应聚焦于与该文本语义最相关的视频子区域，以实现更精准的匹配。然而，现有大多数方法在处理视频时通常对整个视频进行聚合，而未直接考虑文本内容。常见的文本无关聚合方式包括对视频帧进行均值池化或使用自注意力机制，但这些方法很可能引入与给定文本无关的误导性视觉信息。为解决上述问题，我们提出了一种名为 X-Pool 的跨模态注意力模型，该模型能够实现文本与视频帧之间的联合推理。其核心机制是采用缩放点积注意力（scaled dot product attention），使文本能够主动关注与其语义最相似的视频帧。随后，我们基于文本对视频帧的注意力权重，生成一个条件化的视频聚合表示。我们在 MSR-VTT、MSVD 和 LSMDC 三个基准数据集上对所提方法进行了评估，结果表明，相较于现有方法，我们的模型在 Recall@1 指标上实现了最高达 12% 的相对提升，达到了新的最先进水平。实验结果充分验证了联合文本-视频推理在捕捉与文本语义高度相关的视觉线索中的关键作用。完整代码与演示可访问：https://layer6ai-labs.github.io/xpool/

源 PDF