
摘要
近年来,预训练模型以学习可迁移的视频-文本表示用于检索引起了广泛关注。以往的主要工作大多采用两个独立的编码器来实现高效检索,但忽略了视频与文本之间的局部关联。另一类研究则使用联合编码器来交互视频与文本,但由于每对文本-视频都需要输入模型,导致效率较低。在本工作中,我们通过一种新颖的预训练任务——多项选择题(Multiple Choice Questions, MCQ)——实现了细粒度的视频-文本交互,同时保持了检索的高效率。具体而言,我们利用文本中的丰富语义(即名词和动词)构建问题,通过这些“问题”调用视频特征来训练参数模块BridgeFormer进行回答。以问题和答案的形式,可以恰当地建立局部视频-文本特征之间的语义关联。对于下游检索任务,BridgeFormer可以在不影响模型效率和灵活性的情况下被移除,从而仅保留两个编码器。我们的方法在五个不同实验设置(即零样本和微调)下的流行文本到视频检索任务中超越了现有最先进的方法,包括包含一百万个视频的HowTo100M数据集。此外,我们还进行了零样本动作识别实验,该任务可以视为从视频到文本的检索任务,我们的方法同样显著优于其他方法。作为额外的优势,我们的方法在单模态下游任务中也取得了具有竞争力的结果,并且使用的预训练视频长度要短得多,例如在线性评估下的动作识别任务。