تقرير فني عن Kimi-VL

نقدم نموذج Kimi-VL، وهو نموذج مفتوح المصدر فعّال من نوع "مزيج المتخصصين" (Mixture-of-Experts) في مجال الرؤية واللغة (VLM)، يتميّز بقدرات متقدمة في التفكير متعدد الوسائط، وفهم السياقات الطويلة، وقدرات قوية كنموذج وكيل — مع تفعيل فقط 2.8 مليار معلمة في معالج النص (Kimi-VL-A3B). يُظهر نموذج Kimi-VL أداءً قويًا في مجالات صعبة ومتنوعة: كنموذج VLM عام، يتفوّق Kimi-VL في المهام متعددة الدورات كنموذج وكيل (مثل OSWorld)، ويُنافس النماذج الرائدة. كما يُظهر قدرات مميزة في مجموعة متنوعة من المهام الصعبة في مجال الرؤية واللغة، بما في ذلك فهم الصور والفيديوهات على مستوى الجامعات، وقراءة النصوص من الصور (OCR)، والاستنتاج الرياضي، وفهم الصور المتعددة. في التقييمات المقارنة، يُنافس بفعالية النماذج المتطورة في كفاءة معالجة الرؤية واللغة مثل GPT-4o-mini وQwen2.5-VL-7B وGemma-3-12B-IT، ويتفوّق على GPT-4o في عدة مجالات رئيسية. كما يُبقي Kimi-VL تقدّمه في معالجة السياقات الطويلة وفهمها بدقة: بفضل نافذة سياقية ممتدة تصل إلى 128K، يمكن لـ Kimi-VL معالجة مدخلات طويلة ومتنوعة، ويحقق نتائج مذهلة بدرجة 64.5 على LongVideoBench و35.1 على MMLongBench-Doc. كما يتيح له مشغل الرؤية بحلّة أصلية (native-resolution) المعروف بـ MoonViT رؤية وفهم مدخلات بصرية ذات دقة فائقة، ويحقق 83.2 على InfoVQA و34.5 على ScreenSpot-Pro، مع الحفاظ على تكلفة حسابية منخفضة في المهام الشائعة. بناءً على Kimi-VL، نقدّم نسخة متقدّمة تُعرف بـ Kimi-VL-Thinking، التي تم تطويرها عبر تدريب مُراقب مُطوّر (SFT) على سلسلة طويلة من التفكير (CoT) والتعلم التعلّمي بالتعزيز (RL)، وتُظهر قدرات قوية في التفكير على مدى طويل. وتحقيقها نتائج بدرجة 61.7 على MMMU و36.8 على MathVision و71.3 على MathVista، مع الحفاظ على عدد محدود من المعلمات النشطة (2.8 مليار) في نموذج اللغة، مما يُشكّل معيارًا جديدًا لنماذج التفكير متعدد الوسائط الفعّالة. يمكن الوصول إلى الكود والنماذج بشكل عام عبر الرابط: https://github.com/MoonshotAI/Kimi-VL.