17 天前

通义千问2.5-VL 技术报告

Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin
通义千问2.5-VL 技术报告
摘要

我们推出 Qwen2.5-VL,作为 Qwen 视觉语言系列的最新旗舰模型,在基础能力与创新功能方面均实现显著提升。Qwen2.5-VL 通过增强的视觉识别能力、精准的物体定位、鲁棒的文档解析能力以及长视频理解能力,实现了对现实世界更深层次的理解与交互。Qwen2.5-VL 的一项突出特性是能够以边界框(bounding boxes)或点坐标的形式准确实现物体定位。该模型可从发票、表单和表格中高效提取结构化数据,并对图表、示意图及版面布局进行细致分析。为应对复杂输入场景,Qwen2.5-VL 引入了动态分辨率处理与绝对时间编码机制,支持处理不同尺寸的图像以及长达数小时的视频内容,并实现秒级事件定位。这一设计使模型能够原生感知空间尺度与时间动态,无需依赖传统的归一化处理技术。通过从零开始训练具备原生动态分辨率能力的视觉 Transformer(Vision Transformer, ViT),并融合窗口注意力(Window Attention)机制,我们在保持原生分辨率的同时显著降低了计算开销。因此,Qwen2.5-VL 不仅在静态图像与文档理解任务中表现卓越,更可作为具备推理能力、工具调用与任务执行能力的交互式视觉代理,在真实场景中完成如操控计算机与移动设备等复杂任务。Qwen2.5-VL 提供三种不同规模的版本,全面覆盖从边缘计算到高性能计算的多样化应用场景。其中,旗舰型号 Qwen2.5-VL-72B 在多项指标上达到当前最先进水平,性能与 GPT-4o、Claude 3.5 Sonnet 等顶尖模型相当,尤其在文档与图示理解方面表现尤为突出。此外,Qwen2.5-VL 保持了 Qwen2.5 大语言模型(LLM)的核心语言能力,具备稳健的自然语言理解与生成性能。

通义千问2.5-VL 技术报告 | 最新论文 | HyperAI超神经