HyperAI超神经

智谱AI正式发布并开源新一代视觉推理模型GLM-4.5V，该模型在41个公开的多模态基准测试中达到同级别开源模型的SOTA（当前最佳）性能，标志着中国在视觉-语言模型领域再次取得重要突破。模型已同步在GitHub、Hugging Face和魔搭社区开源，采用MIT协议，支持商业使用，项目地址为https://github.com/zai-org/GLM-V/。 GLM-4.5V是一个总参数量达1060亿、激活参数约120亿的视觉-语言模型（VLM），基于智谱此前发布的GLM-4.5-Air文本基座模型构建，并延续了GLM-4.1V-Thinking的技术路线。其架构由视觉编码器、MLP适配器和语言解码器三部分组成。通过引入三维旋转位置编码（3D-RoPE），模型显著提升了对三维空间关系的感知能力；支持64K tokens的多模态长上下文输入，并采用三维卷积优化视频处理效率，具备处理高分辨率图像和极端宽高比图像的强鲁棒性。在训练策略上，智谱采用三阶段优化：预训练阶段融合大规模图文交错语料与长上下文内容，强化基础理解能力；监督微调阶段引入“思维链”格式样本，提升因果推理与多模态深度理解；强化学习阶段结合可验证奖励强化学习（RLVR）与基于人类反馈的强化学习（RLHF），在STEM问题、多模态定位和智能体任务中实现全面优化。官方演示显示，GLM-4.5V具备强大的视觉推理能力。在图像理解方面，能精准识别目标物体并输出坐标框；在“图寻游戏”测试中，16小时内击败99%人类玩家，7天后升至全球第66名。在复杂文档处理上，可同步解析文字与图表，实现高精度总结、翻译与信息提取，避免传统OCR+文本模型流程中的误差传递。其“前端复刻”功能可分析网页截图或交互视频，生成结构化HTML、CSS和JavaScript代码，还原网页布局与样式，测试中对谷歌学术首页的复刻效果较为逼真。此外，模型还支持GUI Agent能力，可识别屏幕画面并执行对话、图标定位等任务，智谱同步开源了一款桌面助手应用，支持实时截屏、录屏，实现代码辅助、视频分析、游戏解答、文档解读等多场景应用。 GLM-4.5V的发布，不仅推动了开源多模态AI的发展，也为智能体、自动化开发和人机交互提供了强大工具。

智谱重磅推出开源视觉推理模型GLM-4.5V，刷新41项多模态推理SOTA纪录

Related Links