Kimi-VL 技术报告

我们提出Kimi-VL,这是一种高效开源的视觉语言混合专家(Mixture-of-Experts, MoE)模型,具备先进的多模态推理能力、长上下文理解能力以及强大的智能体(agent)功能,同时其语言解码器仅激活28亿参数(Kimi-VL-A3B)。Kimi-VL在多个挑战性领域展现出卓越性能:作为通用视觉语言模型,它在多轮智能体任务(如OSWorld)中表现优异,达到旗舰模型水平;在多样化高难度视觉语言任务中亦表现出色,涵盖大学级别图像与视频理解、光学字符识别(OCR)、数学推理以及多图像理解等。在对比评估中,Kimi-VL在多项指标上有效媲美前沿高效视觉语言模型,如GPT-4o-mini、Qwen2.5-VL-7B和Gemma-3-12B-IT,并在多个关键领域超越GPT-4o。此外,Kimi-VL在长上下文处理与清晰感知方面实现显著进步。其支持128K扩展上下文窗口,可高效处理各类长序列输入,在LongVideoBench上取得64.5分,在MMLongBench-Doc上获得35.1分,表现突出。其原生高分辨率视觉编码器MoonViT进一步支持对超高清视觉输入的感知与理解,在InfoVQA上达到83.2分,在ScreenSpot-Pro上获得34.5分,同时在常规任务中保持较低的计算开销。基于Kimi-VL,我们进一步推出增强型长思维变体——Kimi-VL-Thinking。该模型通过长链式思维(Chain-of-Thought, CoT)监督微调(Supervised Fine-Tuning, SFT)与强化学习(Reinforcement Learning, RL)训练而成,具备强大的长时程推理能力。在保持仅激活28亿参数的轻量化语言模型架构下,其在MMMU上取得61.7分,在MathVision上达36.8分,在MathVista上取得71.3分,树立了高效多模态思维模型的新标杆。相关代码与模型已公开,欢迎访问:https://github.com/MoonshotAI/Kimi-VL。