7 天前
面向多通道视频-语言检索的预训练对比模型快速适应
Xudong Lin, Simran Tiwari, Shiyuan Huang, Manling Li, Mike Zheng Shou, Heng Ji, Shih-Fu Chang

摘要
多通道视频-语言检索任务要求模型能够理解来自不同模态的信息(例如,视频+问题、视频+语音),从而准确地将视频与文本响应或查询进行关联。幸运的是,对比学习的多模态模型在对齐图像/视频与文本中的语义实体方面表现出色,例如CLIP;而近年来,对比学习文本模型因其生成判别性句子嵌入的强大能力也受到广泛关注,例如SimCSE。然而,在数据和资源有限的情况下,尚缺乏一种清晰高效的方法,将这两类模型快速适配至多通道视频-语言检索任务。本文提出一个具有理论依据的模型设计空间,其包含两个维度:一是如何表示视频,二是如何融合视频与文本信息。基于对近期方法的分类分析,我们探讨了两种视频表示方式:使用连续特征向量或离散文本标记(text tokens);在融合策略方面,则考察了多模态Transformer与预训练对比文本模型的可行性。我们在五个视频-语言数据集上系统评估了这四种组合方案。令人意外的是,采用离散文本标记表示视频并结合预训练对比文本模型的方案取得了最佳性能,甚至在iVQA和How2QA数据集上超越了现有最先进方法,且无需在数百万视频-文本对上进行额外训练。进一步分析表明,这一优势源于将视频表示为文本标记能够有效捕捉关键视觉信息,而文本标记本身天然与经过对比预训练后具备强大检索能力的文本模型具有良好的对齐性。本研究的全部实证分析为未来低成本、可升级的多模态智能系统研究奠定了坚实基础。