2 个月前
InternVideo2:扩展基础模型以实现多模态视频理解
Wang, Yi ; Li, Kunchang ; Li, Xinhao ; Yu, Jiashuo ; He, Yinan ; Wang, Chenting ; Chen, Guo ; Pei, Baoqi ; Yan, Ziang ; Zheng, Rongkun ; Xu, Jilan ; Wang, Zun ; Shi, Yansong ; Jiang, Tianxiang ; Li, Songze ; Zhang, Hongjie ; Huang, Yifei ; Qiao, Yu ; Wang, Yali ; Wang, Limin

摘要
我们介绍了InternVideo2,这是一系列新的视频基础模型(ViFM),在视频识别、视频-文本任务以及以视频为中心的对话方面取得了最先进的成果。我们的核心设计是一种渐进式训练方法,该方法统一了掩码视频建模、跨模态对比学习和下一个标记预测,将视频编码器的参数规模扩展至60亿。在数据层面,我们通过语义分割视频并生成视频-音频-语音字幕来优先考虑时空一致性,从而提高了视频与文本之间的对齐度。通过广泛的实验,我们验证了我们的设计,并展示了在超过60个视频和音频任务上的卓越性能。特别值得一提的是,我们的模型在各种与视频相关的对话和长视频理解基准测试中超越了其他模型,突显了其推理和理解较长上下文的能力。代码和模型可在https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/ 获取。