HyperAIHyperAI
منذ شهر واحد

تقرير فني عن Kimi-VL

Kimi Team, Angang Du, Bohong Yin, Bowei Xing, Bowen Qu, Bowen Wang, Cheng Chen, Chenlin Zhang, Chenzhuang Du, Chu Wei, Congcong Wang, Dehao Zhang, Dikang Du, Dongliang Wang, Enming Yuan, Enzhe Lu, Fang Li, Flood Sung, Guangda Wei, Guokun Lai, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haoning Wu, Haotian Yao, Haoyu Lu, Heng Wang, Hongcheng Gao, Huabin Zheng, Jiaming Li, Jianlin Su, Jianzhou Wang, Jiaqi Deng, Jiezhong Qiu, Jin Xie, Jinhong Wang, Jingyuan Liu, Junjie Yan, Kun Ouyang, Liang Chen, Lin Sui, Longhui Yu, Mengfan Dong, Mengnan Dong, Nuo Xu, Pengyu Cheng, Qizheng Gu, Runjie Zhou, Shaowei Liu, Sihan Cao, Tao Yu, Tianhui Song, Tongtong Bai, Wei Song, Weiran He, Weixiao Huang, Weixin Xu, Xiaokun Yuan, Xingcheng Yao, Xingzhe Wu, Xinxing Zu, Xinyu Zhou, Xinyuan Wang, Y. Charles, Yan Zhong, Yang Li, Yangyang Hu, Yanru Chen, Yejie Wang, Yibo Liu, Yibo Miao, Yidao Qin, Yimin Chen, Yiping Bao, Yiqin Wang, Yongsheng Kang, Yuanxin Liu, Yulun Du, Yuxin Wu, Yuzhi Wang, Yuzi Yan, Zaida Zhou, Zhaowei Li, Zhejun Jiang, Zheng Zhang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Zijia Zhao, Ziwei Chen
تقرير فني عن Kimi-VL
الملخص

نقدم نموذج Kimi-VL، وهو نموذج مفتوح المصدر فعّال من نوع "مزيج المتخصصين" (Mixture-of-Experts) في مجال الرؤية واللغة (VLM)، يتميّز بقدرات متقدمة في التفكير متعدد الوسائط، وفهم السياقات الطويلة، وقدرات قوية كنموذج وكيل — مع تفعيل فقط 2.8 مليار معلمة في معالج النص (Kimi-VL-A3B). يُظهر نموذج Kimi-VL أداءً قويًا في مجالات صعبة ومتنوعة: كنموذج VLM عام، يتفوّق Kimi-VL في المهام متعددة الدورات كنموذج وكيل (مثل OSWorld)، ويُنافس النماذج الرائدة. كما يُظهر قدرات مميزة في مجموعة متنوعة من المهام الصعبة في مجال الرؤية واللغة، بما في ذلك فهم الصور والفيديوهات على مستوى الجامعات، وقراءة النصوص من الصور (OCR)، والاستنتاج الرياضي، وفهم الصور المتعددة. في التقييمات المقارنة، يُنافس بفعالية النماذج المتطورة في كفاءة معالجة الرؤية واللغة مثل GPT-4o-mini وQwen2.5-VL-7B وGemma-3-12B-IT، ويتفوّق على GPT-4o في عدة مجالات رئيسية. كما يُبقي Kimi-VL تقدّمه في معالجة السياقات الطويلة وفهمها بدقة: بفضل نافذة سياقية ممتدة تصل إلى 128K، يمكن لـ Kimi-VL معالجة مدخلات طويلة ومتنوعة، ويحقق نتائج مذهلة بدرجة 64.5 على LongVideoBench و35.1 على MMLongBench-Doc. كما يتيح له مشغل الرؤية بحلّة أصلية (native-resolution) المعروف بـ MoonViT رؤية وفهم مدخلات بصرية ذات دقة فائقة، ويحقق 83.2 على InfoVQA و34.5 على ScreenSpot-Pro، مع الحفاظ على تكلفة حسابية منخفضة في المهام الشائعة. بناءً على Kimi-VL، نقدّم نسخة متقدّمة تُعرف بـ Kimi-VL-Thinking، التي تم تطويرها عبر تدريب مُراقب مُطوّر (SFT) على سلسلة طويلة من التفكير (CoT) والتعلم التعلّمي بالتعزيز (RL)، وتُظهر قدرات قوية في التفكير على مدى طويل. وتحقيقها نتائج بدرجة 61.7 على MMMU و36.8 على MathVision و71.3 على MathVista، مع الحفاظ على عدد محدود من المعلمات النشطة (2.8 مليار) في نموذج اللغة، مما يُشكّل معيارًا جديدًا لنماذج التفكير متعدد الوسائط الفعّالة. يمكن الوصول إلى الكود والنماذج بشكل عام عبر الرابط: https://github.com/MoonshotAI/Kimi-VL.