Command Palette
Search for a command to run...
基于多模态线索的联合嵌入学习用于跨模态视频-文本检索
基于多模态线索的联合嵌入学习用于跨模态视频-文本检索
Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze
摘要
在众多多媒体应用中,构建跨模态不变的联合表示(如视频与语言模态)具有重要意义。尽管近年来在学习联合表示以实现高效图像-文本检索方面取得了多项成功,但视频-文本检索任务尚未得到充分探索。本文研究如何有效利用视频中可用的多模态线索,以提升跨模态视频-文本检索的性能。基于分析结果,我们提出一种新颖的框架,通过融合策略同时利用多种模态特征(包括不同的视觉特征、音频输入及文本信息),实现高效的检索。此外,我们在训练联合嵌入表示时探索了多种损失函数,并为该任务提出了一种改进的成对排序损失(modified pairwise ranking loss)。在MSVD和MSR-VTT数据集上的实验结果表明,所提方法相较于当前最先进的技术显著提升了性能。