摘要

在众多多媒体应用中，构建跨模态不变的联合表示（如视频与语言模态）具有重要意义。尽管近年来在学习联合表示以实现高效图像-文本检索方面取得了多项成功，但视频-文本检索任务尚未得到充分探索。本文研究如何有效利用视频中可用的多模态线索，以提升跨模态视频-文本检索的性能。基于分析结果，我们提出一种新颖的框架，通过融合策略同时利用多种模态特征（包括不同的视觉特征、音频输入及文本信息），实现高效的检索。此外，我们在训练联合嵌入表示时探索了多种损失函数，并为该任务提出了一种改进的成对排序损失（modified pairwise ranking loss）。在MSVD和MSR-VTT数据集上的实验结果表明，所提方法相较于当前最先进的技术显著提升了性能。

源 PDF 查看代码