vor einem Monat

Kimi-VL Technischer Bericht

Kimi Team, Angang Du, Bohong Yin, Bowei Xing, Bowen Qu, Bowen Wang, Cheng Chen, Chenlin Zhang, Chenzhuang Du, Chu Wei, Congcong Wang, Dehao Zhang, Dikang Du, Dongliang Wang, Enming Yuan, Enzhe Lu, Fang Li, Flood Sung, Guangda Wei, Guokun Lai, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haoning Wu, Haotian Yao, Haoyu Lu, Heng Wang, Hongcheng Gao, Huabin Zheng, Jiaming Li, Jianlin Su, Jianzhou Wang, Jiaqi Deng, Jiezhong Qiu, Jin Xie, Jinhong Wang, Jingyuan Liu, Junjie Yan, Kun Ouyang, Liang Chen, Lin Sui, Longhui Yu, Mengfan Dong, Mengnan Dong, Nuo Xu, Pengyu Cheng, Qizheng Gu, Runjie Zhou, Shaowei Liu, Sihan Cao, Tao Yu, Tianhui Song, Tongtong Bai, Wei Song, Weiran He, Weixiao Huang, Weixin Xu, Xiaokun Yuan, Xingcheng Yao, Xingzhe Wu, Xinxing Zu, Xinyu Zhou, Xinyuan Wang, Y. Charles, Yan Zhong, Yang Li, Yangyang Hu, Yanru Chen, Yejie Wang, Yibo Liu, Yibo Miao, Yidao Qin, Yimin Chen, Yiping Bao, Yiqin Wang, Yongsheng Kang, Yuanxin Liu, Yulun Du, Yuxin Wu, Yuzhi Wang, Yuzi Yan, Zaida Zhou, Zhaowei Li, Zhejun Jiang, Zheng Zhang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Zijia Zhao, Ziwei Chen

Details der Forschungsarbeit anzeigen View Code

Abstract

Wir präsentieren Kimi-VL, ein effizientes, quelloffenes Mixture-of-Experts (MoE)-Vision-Sprache-Modell (VLM), das fortgeschrittene multimodale Schlussfolgerung, Verständnis langer Kontexte und starke Agentenfähigkeiten bietet – und dabei lediglich 2,8 Milliarden Parameter in seinem Sprachdecoder aktiviert (Kimi-VL-A3B). Kimi-VL zeigt herausragende Leistung in anspruchsvollen Domänen: Als allgemein einsetzbares VLM übertrifft Kimi-VL führende Modelle bei mehrschrittigen Agentenaufgaben (z. B. OSWorld). Zudem zeichnet es sich durch bemerkenswerte Fähigkeiten bei einer Vielzahl herausfordernder Aufgaben im Bereich Vision-Sprache aus, darunter Verständnis von Bildern und Videos auf Hochschulniveau, OCR, mathematische Schlussfolgerung und Verarbeitung mehrerer Bilder. In vergleichenden Evaluierungen konkurriert Kimi-VL effektiv mit führenden effizienten VLMs wie GPT-4o-mini, Qwen2.5-VL-7B und Gemma-3-12B-IT und übertrifft GPT-4o in mehreren Schlüsselbereichen. Kimi-VL erreicht zudem Fortschritte bei der Verarbeitung langer Kontexte und der klaren Wahrnehmung: Mit einem erweiterten Kontextfenster von 128 K kann das Modell vielfältige lange Eingaben verarbeiten und erzielt beeindruckende Ergebnisse von 64,5 auf LongVideoBench und 35,1 auf MMLongBench-Doc. Der native-Auflösungs-Vision-Encoder MoonViT ermöglicht zudem die Verarbeitung und Interpretation von ultrahochauflösenden visuellen Eingaben, wobei Werte von 83,2 auf InfoVQA und 34,5 auf ScreenSpot-Pro erreicht werden, während gleichzeitig die Rechenkosten für alltägliche Aufgaben niedrig bleiben. Aufbauend auf Kimi-VL stellen wir eine erweiterte Variante mit langem Denkprozess vor: Kimi-VL-Thinking. Dieses Modell wurde durch langkettige, auf Supervised Fine-Tuning (SFT) und Verstärkendes Lernen (RL) basierende Training entwickelt und zeigt starke Fähigkeiten im langfristigen Schlussfolgern. Es erreicht Ergebnisse von 61,7 auf MMMU, 36,8 auf MathVision und 71,3 auf MathVista, während es die kompakte Größe von 2,8 Milliarden aktivierten LLM-Parametern beibehält und damit einen neuen Standard für effiziente multimodale Denkmodelle setzt. Quellcode und Modelle sind öffentlich unter https://github.com/MoonshotAI/Kimi-VL verfügbar.