2 个月前

Video-LLaVA：通过对齐前投影学习统一的视觉表示

Bin Lin; Yang Ye; Bin Zhu; Jiaxi Cui; Munan Ning; Peng Jin; Li Yuan

摘要

大型视觉-语言模型（LVLM）在视觉-语言理解的各种下游任务中提升了性能。现有的大多数方法将图像和视频编码到不同的特征空间中，然后作为输入提供给大型语言模型（LLM）。然而，由于缺乏对图像和视频的统一标记化，即投影前的错位问题，使得LLM难以从多个质量较差的投影层中学习多模态交互。在这项工作中，我们将视觉表示统一到语言特征空间中，以推动基础LLM向统一的LVLM发展。因此，我们建立了一个简单但稳健的LVLM基线模型——Video-LLaVA，该模型从包含图像和视频的混合数据集中学习，相互增强彼此的表现。Video-LLaVA在5个图像问答数据集和4个图像基准工具包中的9个图像基准测试上取得了优异的成绩。此外，我们的Video-LLaVA在MSRVTT、MSVD、TGIF和ActivityNet四个数据集上的表现分别优于Video-ChatGPT 5.8%、9.9%、18.6%和10.1%。值得注意的是，广泛的实验表明，Video-LLaVA通过统一的视觉表示，在图像和视频之间实现了相互促进的效果，其性能超过了专门为图像或视频设计的模型。我们希望这项工作能为LLM的多模态输入提供一些有益的见解。代码地址：\href{https://github.com/PKU-YuanGroup/Video-LLaVA}