HyperAIHyperAI
Back to Headlines

智谱开源视觉推理模型GLM-4.5V,刷新41项多模态SOTA记录

vor 2 Tagen

智谱AI正式发布并开源新一代视觉推理模型GLM-4.5V,该模型在41项公开多模态基准测试中达到同级别开源模型的SOTA(当前最佳)水平,标志着中国在视觉-语言模型领域迈入全球领先行列。GLM-4.5V基于此前发布的GLM-4.5-Air文本基座模型构建,延续了GLM-4.1V-Thinking的技术路径,采用1060亿总参数、120亿激活参数的设计,具备强大的多模态理解与推理能力。模型架构由视觉编码器、MLP适配器和语言解码器三部分组成,创新引入三维旋转位置编码(3D-RoPE),显著提升对三维空间关系的感知能力。同时,支持高达64K tokens的多模态长上下文输入,并通过三维卷积优化视频处理效率,使其在高分辨率图像、极端宽高比画面及视频内容理解方面表现优异。 在训练策略上,智谱采用三阶段优化:预训练阶段融合大规模图文交错语料与长上下文数据,强化基础理解;监督微调阶段引入“思维链”格式样本,增强因果推理与深层多模态理解;强化学习阶段结合可验证奖励强化学习(RLVR)与基于人类反馈的强化学习(RLHF),构建多领域奖励系统,显著提升模型在STEM问题求解、多模态定位与智能体任务中的表现。官方演示显示,GLM-4.5V在“图寻游戏”全球积分赛中,16小时内击败99%人类玩家,7天后跻身全球前66名,展现出接近甚至超越人类的视觉推理能力。在文档理解方面,模型可精准处理数十页含图表的复杂文档,实现图文同步解析,避免传统OCR+文本模型流程中的信息失真。其“前端复刻”功能可分析网页截图或交互视频,生成结构化HTML/CSS/JS代码,成功还原谷歌学术首页UI,虽在动态交互识别上略有不足,但整体表现已接近实用化水平。此外,模型具备GUI Agent能力,能识别屏幕内容、定位图标、执行对话问答,为开发桌面级智能助手提供核心技术支撑。智谱同步开源了一款桌面助手应用,支持实时截屏、录屏与多任务处理,覆盖代码辅助、视频分析、游戏解答、文档解读等场景。 该模型已通过GitHub、Hugging Face和魔搭社区开源,采用MIT协议,允许自由商用。这一举措极大降低了多模态AI技术的使用门槛,推动科研与产业应用加速落地。业内专家认为,GLM-4.5V的发布不仅体现了智谱在多模态大模型架构与训练方法上的深度创新,更标志着中国在通用视觉推理能力上已具备全球竞争力。作为国内领先的AI基础设施公司,智谱AI持续通过开源生态建设,推动AI技术普惠化。其GLM系列模型已形成从文本到多模态、从推理到生成的完整技术矩阵,为AI+行业应用提供了坚实底座。随着GLM-4.5V在教育、开发、内容创作等领域的深入应用,有望加速人机交互范式的变革。

Related Links