2 个月前

InternVideo2.5：通过长且丰富的上下文建模增强视频多语言大模型的能力

Yi Wang; Xinhao Li; Ziang Yan; Yinan He; Jiashuo Yu; Xiangyu Zeng; Chenting Wang; Changlian Ma; Haian Huang; Jianfei Gao; Min Dou; Kai Chen; Wenhai Wang; Yu Qiao; Yali Wang; Limin Wang

查看论文详情

InternVideo2.5：通过长且丰富的上下文建模增强视频多语言大模型的能力

摘要

本文旨在通过长而丰富的上下文（LRC）建模来提升视频多模态大语言模型（MLLM）的性能。为此，我们开发了InternVideo2.5的新版本，重点在于增强原有MLLM对细粒度细节的感知能力和捕捉视频中长时间结构的能力。具体而言，我们的方法通过直接偏好优化将密集视觉任务注释整合到MLLM中，并通过自适应层次令牌压缩开发紧凑的空间时间表示。实验结果表明，这种独特的LRC设计在主流视频理解基准测试（短时和长时）中显著提升了视频MLLM的表现，使得MLLM能够记住显著更长的视频输入（至少比原版长6倍），并掌握了诸如目标跟踪和分割等专门的视觉能力。我们的工作突显了多模态上下文丰富性（长度和细粒度）在增强MLLM固有能力（专注力和记忆力）方面的重要性，为未来关于视频MLLM的研究提供了新的见解。代码和模型可在https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5 获取。