2 个月前

VideoLLaMA 2：在视频大语言模型中推进时空建模和音频理解

Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing

查看论文详情

摘要

在本文中，我们介绍了VideoLLaMA 2，这是一组旨在增强视频和音频导向任务中的时空建模和音频理解能力的视频大语言模型（Video-LLMs）。基于其前身，VideoLLaMA 2引入了一个定制的时空卷积（Spatial-Temporal Convolution, STC）连接器，能够有效捕捉视频数据复杂的时空动态。此外，我们通过联合训练将一个音频分支集成到模型中，从而无缝结合音频线索，丰富了模型的多模态理解能力。我们在多项选择视频问答（MC-VQA）、开放式视频问答（OE-VQA）和视频字幕生成（VC）任务上进行了全面评估，结果表明，VideoLLaMA 2在开源模型中始终表现出竞争力，并在多个基准测试中接近某些专有模型的表现。此外，与现有模型相比，VideoLLaMA 2在仅音频和音视频问答（AQA & OE-AVQA）基准测试中也显示出合理的改进。这些进展突显了VideoLLaMA 2在多模态理解方面的卓越性能，为智能视频分析系统树立了新的标准。所有模型均公开发布，以促进进一步的研究。