
摘要
为了应对大型多模态模型在视频问答任务中计算和内存的限制,最近的一些方法从每帧中提取文本表示(例如,通过字幕生成)并将其输入到大型语言模型(LLM)中,由其处理这些文本以生成最终答案。然而,这种方法使得 LLM 无法访问视觉信息,并且经常需要处理相邻帧的重复文本描述。为了解决这些不足,本文引入了 VidCtx,一种新颖的无需训练的视频问答框架,该框架整合了两种模态的信息,即输入帧中的视觉信息和其他帧的文本描述,后者提供了适当的上下文。具体而言,在所提出的框架中,一个预训练的大型多模态模型(LMM)被提示定期提取问题感知的视频帧文本描述(字幕)。这些描述将在回答当前问题时作为上下文使用,此时 LMM 将根据以下输入进行提示:a) 某一特定帧;b) 问题本身;c) 适当帧的上下文/字幕。为了避免冗余信息,我们选择了距离较远的帧的描述作为上下文。最后,采用了一种简单而有效的最大池化机制来聚合帧级别的决策。这一方法使模型能够专注于视频的相关部分,并扩展到大量帧。实验表明,在三个公开的视频问答基准数据集 NExT-QA、IntentQA 和 STAR 上,VidCtx 在依赖开放模型的方法中表现出竞争力。我们的代码可在 https://github.com/IDT-ITI/VidCtx 获取。