
摘要
我们提出了一种方法,用于将给定语料库中的文本句子与给定视频片段进行匹配,反之亦然。传统上,视频与文本的匹配是通过学习一个共享的嵌入空间来实现的,其中一种模态的编码过程独立于另一种模态。在本工作中,我们对数据集的编码方式进行了改进,使其能够考虑查询相关的上下文信息。该方法的强大性能源于对词语与视频帧之间交互信息的聚合。由于视频片段的编码依赖于与其对比的句子,因此每一对潜在匹配都需要重新计算其表示。为此,我们提出了一种高效的浅层神经网络。该网络的训练采用了一种可扩展的分层三元组损失(hierarchical triplet loss),适用于段落与视频的匹配任务。该方法结构简洁,具备良好的可解释性,并在五个不同数据集(ActivityNet、DiDeMo、YouCook2、MSR-VTT 和 LSMDC)上,显著超越现有方法,分别在句子-片段匹配和视频-文本匹配任务中取得了当前最优的性能。此外,我们还证明了所提出的条件化表示可有效迁移至视频引导的机器翻译任务,在 VATEX 数据集上进一步提升了现有结果。源代码已公开,获取地址为:https://github.com/AmeenAli/VideoMatch。