
摘要
我们介绍了Video-LLaMA,这是一种多模态框架,赋予大型语言模型(LLMs)理解和处理视频中的视觉和听觉内容的能力。Video-LLaMA通过冻结的预训练视觉和音频编码器以及冻结的大型语言模型进行跨模态训练。与以往仅补充大型语言模型以处理视觉或听觉信号的工作不同,Video-LLaMA通过解决两个挑战来实现视频理解:(1)捕捉视觉场景中的时间变化;(2)整合视听信号。为了解决第一个挑战,我们提出了一种Video Q-former,将预训练的图像编码器集成到我们的视频编码器中,并引入了视频到文本生成任务,以学习视频与语言之间的对应关系。对于第二个挑战,我们利用ImageBind这一对齐多种模态的通用嵌入模型作为预训练的音频编码器,并在其基础上引入了Audio Q-former,以学习合理的听觉查询嵌入供大型语言模型模块使用。为了使视觉和音频编码器的输出与大型语言模型的嵌入空间对齐,我们首先在大量的视频/图像-字幕对上训练Video-LLaMA,然后使用中等数量但高质量的视觉指令数据集微调我们的模型。我们发现,Video-LLaMA展示了感知和理解视频内容的能力,并能生成基于视频中呈现的视听信息的有意义响应。