HyperAIHyperAI

Command Palette

Search for a command to run...

Qwen2.5-VL 技术报告

摘要

我们推出 Qwen2.5-VL,这是 Qwen 视觉语言系列的最新旗舰模型,在基础能力与创新功能方面均实现显著提升。Qwen2.5-VL 通过增强的视觉识别能力、精准的物体定位、强大的文档解析能力以及对长视频的深度理解,实现了对世界认知与交互能力的重大飞跃。Qwen2.5-VL 的一大亮点是能够以边界框或点的形式实现高精度的物体定位,可从发票、表单和表格中稳健提取结构化数据,并对图表、示意图及版面布局进行细致分析。为应对复杂输入,Qwen2.5-VL 引入了动态分辨率处理与绝对时间编码技术,使其能够处理不同尺寸的图像以及长达数小时的视频,并实现秒级事件定位。该设计使模型能够原生感知空间尺度与时间动态,无需依赖传统的归一化处理方法。通过从零开始训练具备原生动态分辨率能力的视觉Transformer(ViT)模型,并结合窗口注意力(Window Attention)机制,我们在保持原生分辨率的同时显著降低了计算开销。因此,Qwen2.5-VL 不仅在静态图像与文档理解方面表现卓越,更可作为具备推理能力、工具调用与任务执行能力的交互式视觉智能体,在操作计算机和移动设备等真实场景中发挥实际作用。Qwen2.5-VL 提供三种不同规模的版本,可满足从边缘AI到高性能计算的多样化应用需求。其中,旗舰版 Qwen2.5-VL-72B 在文档与图示理解方面表现尤为突出,其综合性能可与 GPT-4o、Claude 3.5 Sonnet 等当前最先进模型相媲美。此外,Qwen2.5-VL 仍保持了强大的语言能力,完整保留了 Qwen2.5 大语言模型的核心语言理解与生成能力。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Qwen2.5-VL 技术报告 | 论文 | HyperAI超神经