Kimi K2.5发布两周后,它还值得期待吗?
Kimi K2.5发布已两週,作为Moonshot AI推出的1.04万亿参数大模型,其在性能与架构上的突破引发广泛关注。该模型延续Kimi K2的架构设计,采用384专家、8个激活专家、MLA注意力机制和SwiGLU激活函数,支持256K上下文窗口,但训练数据规模显著提升:在原有15万亿纯文本基础上,额外训练了约15万亿图文混合数据、1万亿视觉Transformer(ViT)数据及7000亿长上下文数据,总计约32万亿token,远超GLM-5的28.5万亿。 其视觉编码器MoonViT-3D基于SigLIP-SO-400M,采用NaViT压缩策略,支持变分辨率图像输入,视频处理则通过四帧分组与时间池化实现4倍压缩。模型以INT4精度发布(约595GB),经Unsloth动态1.8-bit量化后可降至240GB,可在单张24GB显卡上运行,速度约10 tokens/秒。 最引人注目的是“Agent Swarm”机制,基于并行代理强化学习(PARL)框架。该系统将任务分解为可并行执行的子任务,由冻结的子代理执行,仅协调器参数通过强化学习更新,避免信用分配难题。训练中通过辅助奖励项防止“串行退化”和“虚假并行”问题。实测显示,BrowseComp得分从60.6%提升至78.4%,WideSearch F1达79.0%,执行时间缩短3至4.5倍。尽管Qwen3.5在相同策略下也达78.6%,但K2.5是首个在开源模型中实现原生并行代理训练的案例。 在基准测试中,K2.5在HLE-Full(50.2%)、OCR-Bench(92.3%)、MathVista(90.1%)和InfoVQA(92.6%)等任务上领先,尤其在视觉理解方面表现突出,中文文档识别能力接近Gemini 3水平。但在AIME 2025、SWE-Bench Verified、GPQA-Diamond等任务上仍落后于GPT-5.2与Claude Opus 4.5。其在WeirdML任务中仅46%准确率,且在人工分析的AA-Omniscience知识指数中得分为-11,表明存在严重幻觉问题。 社区反馈显示,K2.5在前端开发与视觉转代码任务中表现优异,代码生成能力强,但首版输出常冗长复杂,需人工简化。Agent Swarm在多源信息收集中高效,但子代理间概念定义易不一致,影响输出一致性。创意写作与人格化表现仍不及Claude Opus。 成本方面,模型输出冗长,平均生成量达8900万token,是同类模型的6倍,虽单价便宜,但实际使用成本仍高。本地部署需595GB显存,24GB GPU+256GB内存可运行,但GGUF/llama.cpp尚不支持视觉功能。 K2.5在多模态训练中揭示重要洞见:早期融合(10%视觉比例)优于晚期融合(50%视觉注入),且“零视觉SFT”可激活视觉推理能力,甚至提升文本任务表现,验证了原生多模态训练的有效性。 尽管面临成本与幻觉挑战,K2.5仍是当前最具竞争力的开源多模态大模型之一,尤其在视觉与并行代理任务中展现巨大潜力。未来关键在于PARL框架是否能泛化至复杂真实场景。
