9 天前

Tem-Adapter：面向视频问答的图像-文本预训练适配

Guangyi Chen, Xiao Liu, Guangrun Wang, Kun Zhang, Philip H.S.Torr, Xiao-Ping Zhang, Yansong Tang

摘要

视频-语言预训练模型在引导视频问答（VideoQA）任务方面已展现出显著成效。然而，由于视频序列长度较长，训练大规模基于视频的模型所耗费的成本远高于基于图像的模型。这一现实促使我们探索利用基于图像的预训练知识，尽管图像与视频领域之间存在明显差异。为弥合这些差异，本文提出Tem-Adapter，该方法通过视觉时序对齐器（Visual Temporal Aligner）与文本语义对齐器（Textual Semantic Aligner）协同实现对时序动态和复杂语义的学习。与传统仅聚焦下游任务目标的预训练知识迁移方法不同，时序对齐器引入了一项额外的语言引导自回归任务，旨在促进时序依赖关系的学习——即基于历史线索及描述事件演进过程的语言引导信息，预测未来的状态。此外，为缩小语义鸿沟并优化文本表示以更准确地描述事件，本文设计了语义对齐器：首先构建模板，将问题与答案对融合为事件描述；随后，以完整视频序列作为引导，通过一个Transformer解码器进行精细化学习。我们在两个VideoQA基准数据集上对Tem-Adapter及多种预训练迁移方法进行了评估，实验结果表明，所提方法在性能上取得显著提升，充分验证了其有效性。