1 个月前

Kimi-VL 技术报告

Kimi Team, Angang Du, Bohong Yin, Bowei Xing, Bowen Qu, Bowen Wang, Cheng Chen, Chenlin Zhang, Chenzhuang Du, Chu Wei, Congcong Wang, Dehao Zhang, Dikang Du, Dongliang Wang, Enming Yuan, Enzhe Lu, Fang Li, Flood Sung, Guangda Wei, Guokun Lai, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haoning Wu, Haotian Yao, Haoyu Lu, Heng Wang, Hongcheng Gao, Huabin Zheng, Jiaming Li, Jianlin Su, Jianzhou Wang, Jiaqi Deng, Jiezhong Qiu, Jin Xie, Jinhong Wang, Jingyuan Liu, Junjie Yan, Kun Ouyang, Liang Chen, Lin Sui, Longhui Yu, Mengfan Dong, Mengnan Dong, Nuo Xu, Pengyu Cheng, Qizheng Gu, Runjie Zhou, Shaowei Liu, Sihan Cao, Tao Yu, Tianhui Song, Tongtong Bai, Wei Song, Weiran He, Weixiao Huang, Weixin Xu, Xiaokun Yuan, Xingcheng Yao, Xingzhe Wu, Xinxing Zu, Xinyu Zhou, Xinyuan Wang, Y. Charles, Yan Zhong, Yang Li, Yangyang Hu, Yanru Chen, Yejie Wang, Yibo Liu, Yibo Miao, Yidao Qin, Yimin Chen, Yiping Bao, Yiqin Wang, Yongsheng Kang, Yuanxin Liu, Yulun Du, Yuxin Wu, Yuzhi Wang, Yuzi Yan, Zaida Zhou, Zhaowei Li, Zhejun Jiang, Zheng Zhang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Zijia Zhao, Ziwei Chen

查看论文详情 View Code

摘要

我们提出Kimi-VL，这是一种高效开源的视觉语言混合专家（Mixture-of-Experts, MoE）模型，具备先进的多模态推理能力、长上下文理解能力以及强大的智能体（agent）功能，同时其语言解码器仅激活28亿参数（Kimi-VL-A3B）。Kimi-VL在多个挑战性领域展现出卓越性能：作为通用视觉语言模型，它在多轮智能体任务（如OSWorld）中表现优异，达到旗舰模型水平；在多样化高难度视觉语言任务中亦表现出色，涵盖大学级别图像与视频理解、光学字符识别（OCR）、数学推理以及多图像理解等。在对比评估中，Kimi-VL在多项指标上有效媲美前沿高效视觉语言模型，如GPT-4o-mini、Qwen2.5-VL-7B和Gemma-3-12B-IT，并在多个关键领域超越GPT-4o。此外，Kimi-VL在长上下文处理与清晰感知方面实现显著进步。其支持128K扩展上下文窗口，可高效处理各类长序列输入，在LongVideoBench上取得64.5分，在MMLongBench-Doc上获得35.1分，表现突出。其原生高分辨率视觉编码器MoonViT进一步支持对超高清视觉输入的感知与理解，在InfoVQA上达到83.2分，在ScreenSpot-Pro上获得34.5分，同时在常规任务中保持较低的计算开销。基于Kimi-VL，我们进一步推出增强型长思维变体——Kimi-VL-Thinking。该模型通过长链式思维（Chain-of-Thought, CoT）监督微调（Supervised Fine-Tuning, SFT）与强化学习（Reinforcement Learning, RL）训练而成，具备强大的长时程推理能力。在保持仅激活28亿参数的轻量化语言模型架构下，其在MMMU上取得61.7分，在MathVision上达36.8分，在MathVista上取得71.3分，树立了高效多模态思维模型的新标杆。相关代码与模型已公开，欢迎访问：https://github.com/MoonshotAI/Kimi-VL。