9 天前

Tem-Adapter:面向视频问答的图像-文本预训练适配

Guangyi Chen, Xiao Liu, Guangrun Wang, Kun Zhang, Philip H.S.Torr, Xiao-Ping Zhang, Yansong Tang
Tem-Adapter:面向视频问答的图像-文本预训练适配
摘要

视频-语言预训练模型在引导视频问答(VideoQA)任务方面已展现出显著成效。然而,由于视频序列长度较长,训练大规模基于视频的模型所耗费的成本远高于基于图像的模型。这一现实促使我们探索利用基于图像的预训练知识,尽管图像与视频领域之间存在明显差异。为弥合这些差异,本文提出Tem-Adapter,该方法通过视觉时序对齐器(Visual Temporal Aligner)与文本语义对齐器(Textual Semantic Aligner)协同实现对时序动态和复杂语义的学习。与传统仅聚焦下游任务目标的预训练知识迁移方法不同,时序对齐器引入了一项额外的语言引导自回归任务,旨在促进时序依赖关系的学习——即基于历史线索及描述事件演进过程的语言引导信息,预测未来的状态。此外,为缩小语义鸿沟并优化文本表示以更准确地描述事件,本文设计了语义对齐器:首先构建模板,将问题与答案对融合为事件描述;随后,以完整视频序列作为引导,通过一个Transformer解码器进行精细化学习。我们在两个VideoQA基准数据集上对Tem-Adapter及多种预训练迁移方法进行了评估,实验结果表明,所提方法在性能上取得显著提升,充分验证了其有效性。