
摘要
我们提出了一种名为JSFusion(Joint Sequence Fusion,联合序列融合)的方法,该方法可以测量任意两组多模态序列数据(例如视频片段和语言句子)之间的语义相似度。我们的多模态匹配网络包含两个关键组件。首先,联合语义张量将两个序列数据的密集配对表示组合成一个三维张量。然后,卷积层次解码器通过发现两个序列模态之间的隐藏层次匹配来计算它们的相似度得分。这两个模块均利用了层次注意力机制,该机制自下而上地学习提升良好匹配的表示模式,同时剪枝掉错位的模式。尽管JSFusion是一个适用于任何多模态序列数据的通用模型,但本研究的重点在于视频-语言任务,包括多模态检索和视频问答。我们在LSMDC数据集上的三项检索和VQA任务中评估了JSFusion模型,结果表明我们的模型达到了迄今为止报告的最佳性能。此外,我们还在MSR-VTT数据集上进行了多项选择和电影检索任务,我们的方法在这些任务中也优于许多现有的最先进方法。