3 个月前
CogVLM2:用于图像与视频理解的视觉语言模型
Wenyi Hong, Weihan Wang, Ming Ding, Wenmeng Yu, Qingsong Lv, Yan Wang, Yean Cheng, Shiyu Huang, Junhui Ji, Zhao Xue, Lei Zhao, Zhuoyi Yang, Xiaotao Gu, Xiaohan Zhang, Guanyu Feng, Da Yin, Zihan Wang, Ji Qi, Xixuan Song, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Yuxiao Dong, Jie Tang

摘要
自VisualGLM与CogVLM以来,我们持续探索视觉语言模型(VLMs),致力于实现更优的视觉-语言融合、更高效的高分辨率架构,以及更广泛的模态与应用。在此基础上,我们提出CogVLM2系列,作为新一代用于图像与视频理解的视觉语言模型,包括CogVLM2、CogVLM2-Video以及GLM-4V。作为图像理解模型,CogVLM2继承了视觉专家架构,并在预训练与后训练阶段均采用了优化的训练策略,支持高达1344×1344像素的输入分辨率。作为视频理解模型,CogVLM2-Video引入多帧输入并融合时间戳信息,提出了一种自动化的时序定位数据构建方法。值得注意的是,CogVLM2系列在MMBench、MM-Vet、TextVQA、MVBench和VCGBench等多个基准测试中均取得了当前最优(SOTA)性能。所有模型均已开源,地址为https://github.com/THUDM/CogVLM2 和 https://github.com/THUDM/GLM-4,旨在推动该领域的持续发展。