HyperAI超神经

Kimi K2.5是Kimi系列最新推出的开源视觉语言模型（VLM），具备强大的多模态能力，适用于代理式AI工作流、对话、推理、编程、数学计算等前沿任务。该模型基于开源Megatron-LM框架训练，利用张量并行、数据并行和序列并行等多种并行技术，实现大规模Transformer模型的高效GPU加速训练。 Kimi K2.5采用384个专家的混合专家（MoE）架构，每token仅激活3.2%的参数，实现高效推理。模型总参数量达1万亿，活跃参数为328.6亿，拥有61层结构（1层密集层，60层MoE层），注意力头数为64，词表大小约16.4万。其视觉处理模块采用自研的MoonViT3d视觉塔，可将图像和视频帧转化为高质量嵌入向量，支持多模态输入。在视觉能力方面，模型词表中包含大量专用于视觉的token，以提升对图像和视频内容的理解精度。用户可通过NVIDIA开发者计划，在build.nvidia.com平台上免费使用GPU加速的端点进行原型开发，支持在浏览器中使用自有数据进行测试。 NVIDIA还提供API接口，注册后即可免费调用Kimi K2.5模型。开发者可通过OpenAI兼容的工具调用方式，轻松集成工具调用功能。此外，NVIDIA NIM微服务容器也即将上线，为生产环境部署提供支持。对于部署需求，可使用vLLM推理框架高效运行Kimi K2.5，相关部署指南已提供。在模型定制方面，Kimi K2.5支持基于NVIDIA NeMo框架的微调，利用NeMo AutoModel库可直接在Hugging Face检查点上进行高吞吐量分布式训练，支持监督微调、参数高效方法及强化学习，适用于企业级多模态任务和推理场景。无论是从数据中心的NVIDIA Blackwell平台部署，还是使用托管的NVIDIA NIM服务，NVIDIA均提供全栈式支持。开发者可前往Hugging Face和Kimi API平台获取模型，或在build.nvidia.com的沙盒环境中快速体验Kimi K2.5的强大能力。

相关链接

相关链接

相关链接

在线教程丨基于 500 万小时语音数据，Qwen3-TTS 实现 3 秒语音克隆及精细调控

在线教程丨基于 500 万小时语音数据，Qwen3-TTS 实现 3 秒语音克隆及精细调控

Command Palette

利用 NVIDIA GPU 加速端点，高效部署 Kimi K2.5 多模态视觉语言模型应用

相关链接

Command Palette

利用 NVIDIA GPU 加速端点，高效部署 Kimi K2.5 多模态视觉语言模型应用

相关链接

Command Palette

利用 NVIDIA GPU 加速端点，高效部署 Kimi K2.5 多模态视觉语言模型应用

相关链接

在线教程丨基于 500 万小时语音数据，Qwen3-TTS 实现 3 秒语音克隆及精细调控

在线教程丨基于 500 万小时语音数据，Qwen3-TTS 实现 3 秒语音克隆及精细调控