HyperAI

智谱AI正式发布并开源新一代视觉推理模型GLM-4.5V，标志着中国在多模态大模型领域再获重要突破。该模型在41项公开的多模态基准测试中达到同级别开源模型的最优性能，刷新了当前技术前沿。GLM-4.5V已全面开放于GitHub、Hugging Face及魔搭社区，采用MIT协议，支持自由商用，项目地址为https://github.com/zai-org/GLM-V/。 GLM-4.5V基于智谱此前发布的GLM-4.5-Air文本基座模型构建，延续了GLM-4.1V-Thinking的技术路径，具备1060亿总参数与120亿激活参数，属于高性能视觉-语言模型（VLM）。其架构由视觉编码器、MLP适配器与语言解码器三部分组成，创新性引入三维旋转位置编码（3D-RoPE），显著提升了对空间关系的感知能力。同时，模型支持高达64K tokens的多模态长上下文输入，并采用三维卷积结构，有效增强对视频内容的处理效率，对高分辨率图像及极端宽高比画面也展现出更强的适应性与鲁棒性。在训练策略上，智谱采用三阶段优化体系：预训练阶段融合大规模图文交错语料与长上下文数据，夯实基础理解能力；监督微调阶段引入“思维链”格式样本，强化因果推理与深层多模态理解；强化学习阶段则结合可验证奖励机制（RLVR）与人类反馈强化学习（RLHF），构建多领域奖励系统，在STEM问题求解、多模态定位、智能体任务等复杂场景中实现全面优化。官方演示展示了其强大的跨场景视觉推理能力。在图像理解方面，模型可精准识别目标物体并输出坐标框，甚至通过分析植被、建筑风格、气候痕迹等细节，推断照片拍摄地点与大致经纬度。在“图寻游戏”全球积分赛中，GLM-4.5V于16小时内击败99%人类玩家，7天内跃升至全球第66名，表现令人瞩目。尽管在部分相似场景下存在误判，但整体准确率仍远超多数同类模型。在复杂文档处理方面，GLM-4.5V能高效解析数十页含图表的长文档，实现图文同步理解，完成精准摘要、翻译与信息提取，避免传统OCR+文本模型流程中的信息失真问题。针对前端开发需求，模型提供“前端复刻”功能，可分析网页截图或交互视频，自动生成结构化HTML、CSS与JavaScript代码，还原页面布局与样式。实测中，其对谷歌学术首页的复刻效果接近原版，仅在动态交互细节上略有缺失。此外，GLM-4.5V具备GUI Agent能力，可识别屏幕内容，执行图标定位、对话问答等操作，为构建桌面级智能助手奠定基础。智谱同步推出一款桌面助手应用，支持实时截屏与录屏，依托模型完成代码辅助、视频分析、游戏攻略生成与文档解读等多样化任务，实现真正的“视觉+语言+行动”一体化智能交互。此次开源不仅推动了多模态AI技术的开放共享，也为科研、开发、教育、娱乐等多个领域提供了强大工具，展现了中国在通用人工智能基础设施建设中的持续创新能力。

智谱开源视觉推理模型GLM-4.5V，41项多模态基准测试刷新SOTA纪录

Related Links