HyperAI超神经

Kimi K2.5发布已两週，作为Moonshot AI推出的1.04万亿参数大模型，其在性能与架构上的突破引发广泛关注。该模型延续Kimi K2的架构设计，采用384专家、8个激活专家、MLA注意力机制和SwiGLU激活函数，支持256K上下文窗口，但训练数据规模显著提升：在原有15万亿纯文本基础上，额外训练了约15万亿图文混合数据、1万亿视觉Transformer（ViT）数据及7000亿长上下文数据，总计约32万亿token，远超GLM-5的28.5万亿。其视觉编码器MoonViT-3D基于SigLIP-SO-400M，采用NaViT压缩策略，支持变分辨率图像输入，视频处理则通过四帧分组与时间池化实现4倍压缩。模型以INT4精度发布（约595GB），经Unsloth动态1.8-bit量化后可降至240GB，可在单张24GB显卡上运行，速度约10 tokens/秒。最引人注目的是“Agent Swarm”机制，基于并行代理强化学习（PARL）框架。该系统将任务分解为可并行执行的子任务，由冻结的子代理执行，仅协调器参数通过强化学习更新，避免信用分配难题。训练中通过辅助奖励项防止“串行退化”和“虚假并行”问题。实测显示，BrowseComp得分从60.6%提升至78.4%，WideSearch F1达79.0%，执行时间缩短3至4.5倍。尽管Qwen3.5在相同策略下也达78.6%，但K2.5是首个在开源模型中实现原生并行代理训练的案例。在基准测试中，K2.5在HLE-Full（50.2%）、OCR-Bench（92.3%）、MathVista（90.1%）和InfoVQA（92.6%）等任务上领先，尤其在视觉理解方面表现突出，中文文档识别能力接近Gemini 3水平。但在AIME 2025、SWE-Bench Verified、GPQA-Diamond等任务上仍落后于GPT-5.2与Claude Opus 4.5。其在WeirdML任务中仅46%准确率，且在人工分析的AA-Omniscience知识指数中得分为-11，表明存在严重幻觉问题。社区反馈显示，K2.5在前端开发与视觉转代码任务中表现优异，代码生成能力强，但首版输出常冗长复杂，需人工简化。Agent Swarm在多源信息收集中高效，但子代理间概念定义易不一致，影响输出一致性。创意写作与人格化表现仍不及Claude Opus。成本方面，模型输出冗长，平均生成量达8900万token，是同类模型的6倍，虽单价便宜，但实际使用成本仍高。本地部署需595GB显存，24GB GPU+256GB内存可运行，但GGUF/llama.cpp尚不支持视觉功能。 K2.5在多模态训练中揭示重要洞见：早期融合（10%视觉比例）优于晚期融合（50%视觉注入），且“零视觉SFT”可激活视觉推理能力，甚至提升文本任务表现，验证了原生多模态训练的有效性。尽管面临成本与幻觉挑战，K2.5仍是当前最具竞争力的开源多模态大模型之一，尤其在视觉与并行代理任务中展现巨大潜力。未来关键在于PARL框架是否能泛化至复杂真实场景。

相关链接

相关链接

相关链接

在线教程｜一键加载 ComfyUI 工作流，不写一行代码也能玩转 AI 绘图

在线教程｜一键加载 ComfyUI 工作流，不写一行代码也能玩转 AI 绘图

Command Palette

Kimi K2.5发布两周后，它还值得期待吗？

相关链接

Command Palette

Kimi K2.5发布两周后，它还值得期待吗？

相关链接

Command Palette

Kimi K2.5发布两周后，它还值得期待吗？

相关链接

在线教程｜一键加载 ComfyUI 工作流，不写一行代码也能玩转 AI 绘图

在线教程｜一键加载 ComfyUI 工作流，不写一行代码也能玩转 AI 绘图