2 个月前
Qwen2-VL:增强视觉-语言模型在任意分辨率下的世界感知能力
Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin

摘要
我们推出了Qwen2-VL系列模型,这是对先前Qwen-VL模型的重大升级,重新定义了视觉处理中的传统预设分辨率方法。Qwen2-VL引入了朴素动态分辨率(Naive Dynamic Resolution)机制,使模型能够动态处理不同分辨率的图像,生成不同数量的视觉标记。这种方法使得模型能够生成更加高效和准确的视觉表示,更贴近人类的感知过程。此外,该模型集成了多模态旋转位置嵌入(Multimodal Rotary Position Embedding, M-RoPE),有助于在文本、图像和视频中有效融合位置信息。我们采用了一种统一的范式来处理图像和视频,增强了模型的视觉感知能力。为了探索大型多模态模型的潜力,Qwen2-VL研究了大型视觉-语言模型(LVLMs)的扩展规律。通过扩大模型规模——包括20亿、80亿和720亿参数版本——以及增加训练数据量,Qwen2-VL系列实现了极具竞争力的性能。特别是,Qwen2-VL-72B模型在各种多模态基准测试中取得了与领先模型如GPT-4o和Claude3.5-Sonnet相当的结果,并且优于其他通用模型。代码可在https://github.com/QwenLM/Qwen2-VL获取。