HyperAIHyperAI
Back to Headlines

智谱开源视觉推理模型GLM-4.5V,41项多模态基准测试刷新SOTA纪录

منذ 2 أيام

智谱AI正式发布并开源新一代视觉推理模型GLM-4.5V,标志着中国在多模态大模型领域再获重要突破。该模型在41项公开的多模态基准测试中达到同级别开源模型的最优性能,刷新了当前技术前沿。GLM-4.5V已全面开放于GitHub、Hugging Face及魔搭社区,采用MIT协议,支持自由商用,项目地址为https://github.com/zai-org/GLM-V/。 GLM-4.5V基于智谱此前发布的GLM-4.5-Air文本基座模型构建,延续了GLM-4.1V-Thinking的技术路径,具备1060亿总参数与120亿激活参数,属于高性能视觉-语言模型(VLM)。其架构由视觉编码器、MLP适配器与语言解码器三部分组成,创新性引入三维旋转位置编码(3D-RoPE),显著提升了对空间关系的感知能力。同时,模型支持高达64K tokens的多模态长上下文输入,并采用三维卷积结构,有效增强对视频内容的处理效率,对高分辨率图像及极端宽高比画面也展现出更强的适应性与鲁棒性。 在训练策略上,智谱采用三阶段优化体系:预训练阶段融合大规模图文交错语料与长上下文数据,夯实基础理解能力;监督微调阶段引入“思维链”格式样本,强化因果推理与深层多模态理解;强化学习阶段则结合可验证奖励机制(RLVR)与人类反馈强化学习(RLHF),构建多领域奖励系统,在STEM问题求解、多模态定位、智能体任务等复杂场景中实现全面优化。 官方演示展示了其强大的跨场景视觉推理能力。在图像理解方面,模型可精准识别目标物体并输出坐标框,甚至通过分析植被、建筑风格、气候痕迹等细节,推断照片拍摄地点与大致经纬度。在“图寻游戏”全球积分赛中,GLM-4.5V于16小时内击败99%人类玩家,7天内跃升至全球第66名,表现令人瞩目。尽管在部分相似场景下存在误判,但整体准确率仍远超多数同类模型。 在复杂文档处理方面,GLM-4.5V能高效解析数十页含图表的长文档,实现图文同步理解,完成精准摘要、翻译与信息提取,避免传统OCR+文本模型流程中的信息失真问题。针对前端开发需求,模型提供“前端复刻”功能,可分析网页截图或交互视频,自动生成结构化HTML、CSS与JavaScript代码,还原页面布局与样式。实测中,其对谷歌学术首页的复刻效果接近原版,仅在动态交互细节上略有缺失。 此外,GLM-4.5V具备GUI Agent能力,可识别屏幕内容,执行图标定位、对话问答等操作,为构建桌面级智能助手奠定基础。智谱同步推出一款桌面助手应用,支持实时截屏与录屏,依托模型完成代码辅助、视频分析、游戏攻略生成与文档解读等多样化任务,实现真正的“视觉+语言+行动”一体化智能交互。 此次开源不仅推动了多模态AI技术的开放共享,也为科研、开发、教育、娱乐等多个领域提供了强大工具,展现了中国在通用人工智能基础设施建设中的持续创新能力。

Related Links