2 个月前

Video-LLaVA:通过对齐前投影学习统一的视觉表示

Bin Lin; Yang Ye; Bin Zhu; Jiaxi Cui; Munan Ning; Peng Jin; Li Yuan
Video-LLaVA:通过对齐前投影学习统一的视觉表示
摘要

大型视觉-语言模型(LVLM)在视觉-语言理解的各种下游任务中提升了性能。现有的大多数方法将图像和视频编码到不同的特征空间中,然后作为输入提供给大型语言模型(LLM)。然而,由于缺乏对图像和视频的统一标记化,即投影前的错位问题,使得LLM难以从多个质量较差的投影层中学习多模态交互。在这项工作中,我们将视觉表示统一到语言特征空间中,以推动基础LLM向统一的LVLM发展。因此,我们建立了一个简单但稳健的LVLM基线模型——Video-LLaVA,该模型从包含图像和视频的混合数据集中学习,相互增强彼此的表现。Video-LLaVA在5个图像问答数据集和4个图像基准工具包中的9个图像基准测试上取得了优异的成绩。此外,我们的Video-LLaVA在MSRVTT、MSVD、TGIF和ActivityNet四个数据集上的表现分别优于Video-ChatGPT 5.8%、9.9%、18.6%和10.1%。值得注意的是,广泛的实验表明,Video-LLaVA通过统一的视觉表示,在图像和视频之间实现了相互促进的效果,其性能超过了专门为图像或视频设计的模型。我们希望这项工作能为LLM的多模态输入提供一些有益的见解。代码地址:\href{https://github.com/PKU-YuanGroup/Video-LLaVA}