HyperAIHyperAI
il y a un mois

Rapport technique sur Kimi-VL

Kimi Team, Angang Du, Bohong Yin, Bowei Xing, Bowen Qu, Bowen Wang, Cheng Chen, Chenlin Zhang, Chenzhuang Du, Chu Wei, Congcong Wang, Dehao Zhang, Dikang Du, Dongliang Wang, Enming Yuan, Enzhe Lu, Fang Li, Flood Sung, Guangda Wei, Guokun Lai, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haoning Wu, Haotian Yao, Haoyu Lu, Heng Wang, Hongcheng Gao, Huabin Zheng, Jiaming Li, Jianlin Su, Jianzhou Wang, Jiaqi Deng, Jiezhong Qiu, Jin Xie, Jinhong Wang, Jingyuan Liu, Junjie Yan, Kun Ouyang, Liang Chen, Lin Sui, Longhui Yu, Mengfan Dong, Mengnan Dong, Nuo Xu, Pengyu Cheng, Qizheng Gu, Runjie Zhou, Shaowei Liu, Sihan Cao, Tao Yu, Tianhui Song, Tongtong Bai, Wei Song, Weiran He, Weixiao Huang, Weixin Xu, Xiaokun Yuan, Xingcheng Yao, Xingzhe Wu, Xinxing Zu, Xinyu Zhou, Xinyuan Wang, Y. Charles, Yan Zhong, Yang Li, Yangyang Hu, Yanru Chen, Yejie Wang, Yibo Liu, Yibo Miao, Yidao Qin, Yimin Chen, Yiping Bao, Yiqin Wang, Yongsheng Kang, Yuanxin Liu, Yulun Du, Yuxin Wu, Yuzhi Wang, Yuzi Yan, Zaida Zhou, Zhaowei Li, Zhejun Jiang, Zheng Zhang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Zijia Zhao, Ziwei Chen
Rapport technique sur Kimi-VL
Résumé

Nous présentons Kimi-VL, un modèle vision-langage (VLM) à Mélanges d'Experts (MoE) open-source et efficace, offrant un raisonnement multimodal avancé, une compréhension de longues séquences contextuelles et des capacités d'agent puissantes — tout en activant uniquement 2,8 milliard de paramètres dans son décodeur de langage (Kimi-VL-A3B). Kimi-VL démontre des performances solides dans des domaines exigeants : en tant que VLM polyvalent, il excelle dans les tâches d'agent à plusieurs tours (par exemple, OSWorld), rivalisant avec les modèles phares. En outre, il fait preuve de capacités remarquables sur une diversité de tâches complexes en vision-langage, notamment la compréhension d’images et de vidéos au niveau universitaire, la reconnaissance optique de caractères (OCR), le raisonnement mathématique et l’analyse de plusieurs images simultanément. Dans des évaluations comparatives, il se montre compétitif face à des VLMs efficaces de pointe tels que GPT-4o-mini, Qwen2.5-VL-7B et Gemma-3-12B-IT, tout en dépassant GPT-4o dans plusieurs domaines clés. Kimi-VL progresse également dans le traitement de longues séquences contextuelles et la perception claire : avec une fenêtre contextuelle étendue à 128K, il parvient à traiter diverses entrées longues, obtenant des scores impressionnants de 64,5 sur LongVideoBench et de 35,1 sur MMLongBench-Doc. Son encodeur visuel à résolution native, MoonViT, lui permet en outre de percevoir et comprendre des entrées visuelles ultra-haute résolution, atteignant 83,2 sur InfoVQA et 34,5 sur ScreenSpot-Pro, tout en maintenant un coût computationnel réduit pour les tâches courantes. À partir de Kimi-VL, nous introduisons une variante avancée pour le raisonnement prolongé : Kimi-VL-Thinking. Développée grâce à une fine-tuning supervisée (SFT) en chaîne de raisonnement longue (CoT) et à un apprentissage par renforcement (RL), ce modèle affiche des capacités de raisonnement à horizon long remarquables. Il obtient des scores de 61,7 sur MMMU, 36,8 sur MathVision et 71,3 sur MathVista, tout en conservant les 2,8 milliards de paramètres activés du modèle de langage, établissant ainsi une nouvelle norme pour les modèles efficaces de raisonnement multimodal. Le code et les modèles sont accessibles publiquement à l’adresse suivante : https://github.com/MoonshotAI/Kimi-VL.