2 个月前

Qwen-VL:一种多功能的视觉-语言模型,用于理解、定位、文本阅读等

Bai, Jinze ; Bai, Shuai ; Yang, Shusheng ; Wang, Shijie ; Tan, Sinan ; Wang, Peng ; Lin, Junyang ; Zhou, Chang ; Zhou, Jingren
Qwen-VL:一种多功能的视觉-语言模型,用于理解、定位、文本阅读等
摘要

在本研究中,我们介绍了Qwen-VL系列模型,这是一组大规模的视觉-语言模型(LVLMs),旨在感知和理解文本和图像。基于Qwen-LM作为基础,我们通过精心设计的(i)视觉接收器,(ii)输入输出接口,(iii)三阶段训练管道,以及(iv)多语言多模态清洗语料库,赋予其视觉能力。除了传统的图像描述和问答功能外,我们还通过对齐图像-标题-框元组实现了Qwen-VL模型的定位和文本阅读能力。最终生成的模型包括Qwen-VL和Qwen-VL-Chat,在广泛的以视觉为中心的基准测试(如图像描述、问答、视觉定位)和不同设置(如零样本、少样本)下,这些模型在类似规模的通才模型中创下了新的记录。此外,在现实世界的对话基准测试中,经过指令调优的Qwen-VL-Chat也表现出优于现有的视觉-语言聊天机器人。代码、演示和模型可在https://github.com/QwenLM/Qwen-VL获取。