
摘要
随着社交平台的日益普及,每天都有海量视频被上传,因此根据用户的文本查询高效检索最相关的视频内容变得愈发重要。现有大多数方法仅构建全局视觉特征与文本特征之间的单一联合嵌入空间,而忽视了各模态内部的局部结构信息。另一些方法虽尝试引入包含全局与局部特征的多个嵌入空间,却未能充分捕捉模态间的丰富交叉关联。为此,我们提出一种新型的专家混合Transformer模型——RoME(Role-aware Mixture-of-Experts Transformer),该模型将文本与视频分别在三个层次上进行解耦建模:空间上下文、时间上下文与物体上下文。通过基于Transformer的注意力机制,充分挖掘视觉与文本嵌入在全局与局部层面的表达能力,并引入专家混合(Mixture-of-Experts)结构以显式建模跨模态及结构间的复杂相关性。实验结果表明,在不使用预训练视觉主干网络的前提下,我们的方法在YouCook2与MSR-VTT两个基准数据集上均显著优于当前最优方法。最后,我们进行了全面的消融实验,以验证所提出设计选择的有效性与合理性。