摘要

我们推出 Qwen2.5-VL，这是 Qwen 视觉语言系列的最新旗舰模型，在基础能力与创新功能方面均实现显著提升。Qwen2.5-VL 通过增强的视觉识别能力、精准的物体定位、强大的文档解析能力以及对长视频的深度理解，实现了对世界认知与交互能力的重大飞跃。Qwen2.5-VL 的一大亮点是能够以边界框或点的形式实现高精度的物体定位，可从发票、表单和表格中稳健提取结构化数据，并对图表、示意图及版面布局进行细致分析。为应对复杂输入，Qwen2.5-VL 引入了动态分辨率处理与绝对时间编码技术，使其能够处理不同尺寸的图像以及长达数小时的视频，并实现秒级事件定位。该设计使模型能够原生感知空间尺度与时间动态，无需依赖传统的归一化处理方法。通过从零开始训练具备原生动态分辨率能力的视觉Transformer（ViT）模型，并结合窗口注意力（Window Attention）机制，我们在保持原生分辨率的同时显著降低了计算开销。因此，Qwen2.5-VL 不仅在静态图像与文档理解方面表现卓越，更可作为具备推理能力、工具调用与任务执行能力的交互式视觉智能体，在操作计算机和移动设备等真实场景中发挥实际作用。Qwen2.5-VL 提供三种不同规模的版本，可满足从边缘AI到高性能计算的多样化应用需求。其中，旗舰版 Qwen2.5-VL-72B 在文档与图示理解方面表现尤为突出，其综合性能可与 GPT-4o、Claude 3.5 Sonnet 等当前最先进模型相媲美。此外，Qwen2.5-VL 仍保持了强大的语言能力，完整保留了 Qwen2.5 大语言模型的核心语言理解与生成能力。

源 PDF