智谱重磅推出开源视觉推理模型GLM-4.5V,刷新41项多模态推理SOTA纪录
智谱AI正式发布并开源新一代视觉推理模型GLM-4.5V,该模型在41个公开的多模态基准测试中达到同级别开源模型的SOTA(当前最佳)性能,标志着中国在视觉-语言模型领域再次取得重要突破。模型已同步在GitHub、Hugging Face和魔搭社区开源,采用MIT协议,支持商业使用,项目地址为https://github.com/zai-org/GLM-V/。 GLM-4.5V是一个总参数量达1060亿、激活参数约120亿的视觉-语言模型(VLM),基于智谱此前发布的GLM-4.5-Air文本基座模型构建,并延续了GLM-4.1V-Thinking的技术路线。其架构由视觉编码器、MLP适配器和语言解码器三部分组成。通过引入三维旋转位置编码(3D-RoPE),模型显著提升了对三维空间关系的感知能力;支持64K tokens的多模态长上下文输入,并采用三维卷积优化视频处理效率,具备处理高分辨率图像和极端宽高比图像的强鲁棒性。 在训练策略上,智谱采用三阶段优化:预训练阶段融合大规模图文交错语料与长上下文内容,强化基础理解能力;监督微调阶段引入“思维链”格式样本,提升因果推理与多模态深度理解;强化学习阶段结合可验证奖励强化学习(RLVR)与基于人类反馈的强化学习(RLHF),在STEM问题、多模态定位和智能体任务中实现全面优化。 官方演示显示,GLM-4.5V具备强大的视觉推理能力。在图像理解方面,能精准识别目标物体并输出坐标框;在“图寻游戏”测试中,16小时内击败99%人类玩家,7天后升至全球第66名。在复杂文档处理上,可同步解析文字与图表,实现高精度总结、翻译与信息提取,避免传统OCR+文本模型流程中的误差传递。其“前端复刻”功能可分析网页截图或交互视频,生成结构化HTML、CSS和JavaScript代码,还原网页布局与样式,测试中对谷歌学术首页的复刻效果较为逼真。此外,模型还支持GUI Agent能力,可识别屏幕画面并执行对话、图标定位等任务,智谱同步开源了一款桌面助手应用,支持实时截屏、录屏,实现代码辅助、视频分析、游戏解答、文档解读等多场景应用。 GLM-4.5V的发布,不仅推动了开源多模态AI的发展,也为智能体、自动化开发和人机交互提供了强大工具。