
摘要
最近的研究表明,利用大型预训练图像-语言模型进行视频问答取得了令人鼓舞的结果。尽管这些图像-语言模型可以有效地引导视频-语言模型的表示学习,但它们通常将均匀采样的视频帧作为视觉输入,而没有显式地进行语言感知的时间建模。当视频输入中只有部分内容与语言查询相关时,这种均匀的帧采样往往会导致重要视觉线索的缺失。虽然人类在回答问题时通常会找到一个视频片段并回放该片段,但训练一个查询感知的视频时刻定位器通常需要昂贵的注释和高计算成本。为了解决这一问题,我们提出了一种新的框架——自链接视频定位-回答(Self-Chained Video Localization-Answering, SeViLA),该框架利用单一的图像-语言模型(BLIP-2)来同时处理时间关键帧定位和视频问答任务。SeViLA框架由两个模块组成:定位器(Localizer)和回答器(Answerer),这两个模块都是从BLIP-2参数高效地微调而来。我们提出了两种方法将这两个模块串联起来进行级联推理和自我精炼。首先,在前向链中,定位器在视频中找到多个语言感知的关键帧,这些关键帧被回答器用于预测答案。其次,在反向链中,回答器生成关键帧的伪标签以精炼定位器,从而减轻对昂贵的视频时刻定位注释的需求。我们的SeViLA框架在5个具有挑战性的视频问答和事件预测基准上超越了多个强大的基线模型,并在微调(NExT-QA、STAR)和零样本(NExT-QA、STAR、How2QA、VLEP)设置下均达到了最先进的水平。我们还分析了定位器的影响,将其与其他时间定位模型进行了比较,并探讨了定位器的预训练/自我精炼以及不同数量的关键帧对性能的影响。