
摘要
随着社交媒体的兴起,每天都有海量视频片段被上传,如何根据语言查询高效检索最相关的视觉内容变得至关重要。现有大多数方法致力于学习文本与视觉内容的联合嵌入空间,但未能充分挖掘模态内部结构以及跨模态之间的关联关系。本文提出一种新型Transformer架构,通过注意力机制显式地将文本与视频分解为三类语义角色:对象、空间上下文与时间上下文,并在此基础上学习三类角色之间的内部关联与跨角色关联,从而在不同层次上挖掘具有判别性的匹配特征。在主流数据集YouCook2上的初步实验结果表明,该方法在所有评价指标上均显著优于当前最先进的方法;同时,在两项指标上也超越了另外两种SOTA方法。