HyperAI
القصص الرائجة
كيمي كي2.5 بعد أسبوعين: هل ما زال يستحق الاهتمام؟ مزيج من الوكلاء المتعددين والدمج المبكر لتحسين القدرات البصرية أطلقت شركة مونشوت آي في بكين نسخة كيمي كي2.5 في 27 يناير 2026، مُحدثةً مكانتها كواحدة من أقوى النماذج المفتوحة المصدر في مجال الذكاء الاصطناعي. بخلاف الادعاءات التقليدية حول الأداء في الاختبارات مثل HLE (50.2% مع الأدوات)، البرمجة، والقدرة البصرية، فإن الإصدار الجديد أدخل مفهوم "موجة الوكلاء" (Agent Swarm) الذي يُعدّ نقطة تحول تقنية حقيقية. وبعد أسبوعين من الاستخدام الجماعي، قررت إعادة تقييم كي2.5 مقارنةً بمنافسيها مثل GLM-5، MiniMax-M2.5، وQwen3.5. ما هو كي2.5 فعليًا؟ كيمي كي2.5 يُعدّ أحد أكبر النماذج المفتوحة المصدر من حيث الحجم، بـ 1.04 تريليون معلمة، و32 مليار معلمة نشطة لكل رمز. هذا يفوق بشكل ملحوظ النماذج الأخرى: MiniMax-M2.5 (230B-A10B)، Qwen3.5 (397B-A17B)، وGLM-5 (1T-32B). يستخدم النموذج 384 خبيرًا، مع تفعيل 8 خبراء لكل رمز، ويُعتمد عليه نظام MLA للانتباه، ووظيفة نشاط SwiGLU، ونافذة سياق تصل إلى 256K رمزًا. التصميم المعماري يبقى كما هو في كي2، الذي تم إطلاقه في منتصف 2025. ما يختلف هو عملية التدريب: بدأ كي2 بتدريب أولي على 15 تريليون رمز نصي فقط، ثم استمر كي2.5 من نقطة تدريب متقدمة (near-end checkpoint) على نحو 15 تريليون رمز مختلط بين النص والصورة، بالإضافة إلى 1 تريليون رمز للتدريب على الصور (ViT)، و700 مليار رمز لتدريب طويل السياق. إذا افترضنا عدم التداخل، فإن إجمالي البيانات المستخدمة يقارب 32 تريليون رمز — أكثر من 28.5 تريليونًا في GLM-5 (النص فقط)، بينما لم تُعلن Qwen3.5 وMiniMax-M2.5 عن أرقام مماثلة. المحول البصري هو MoonViT-3D، نموذج صغير بحجم 400 مليون معلمة، مبني على SigLIP-SO-400M، ويستخدم استراتيجية NaViT لمعالجة الصور بمقاييس متغيرة. أما في الفيديو، فيُجمَع كل أربع إطارات متتالية، ثم تُجرى معالجة زمنية لتقليل الحجم بنسبة 4x. هذه الاستراتيجية تُظهر تطورًا واضحًا في دمج البيانات البصرية مبكرًا، بينما أصبح التأخير في الدمج (late fusion) شيئًا من الماضي في النماذج الرائدة. يُوزَّع النموذج بتنسيق INT4 الأصلي (حوالي 595 جيجابايت)، وليس FP8 أو BF16. استخدمت مونشوت تدريبًا واعيًا بالكمّية (quantization-aware training) للحفاظ على الجودة. باستخدام تقنية Unsloth الديناميكية بـ 1.8 بت، يمكن تقليل الحجم إلى 240 جيجابايت فقط، مما يسمح بتشغيله على بطاقة جرافيك واحدة بسعة 24 جيجابايت مع استخدام الذاكرة الخارجية، بسرعة حوالي 10 رموز في الثانية. موجة الوكلاء: ما هو الجديد فعليًا؟ الأكثر إثارة في هذا الإصدار هو مفهوم "موجة الوكلاء" (Agent Swarm)، المدعوم بمنصة التدريب المسمّاة PARL (Parallel-Agent Reinforcement Learning). الفكرة الأساسية: بدلًا من تنفيذ مهام الوكيل بشكل متسلسل (استدعاء أداة، مراقبة النتيجة، التفكير، ثم أداة جديدة)، يتعلم كي2.5 تفكيك المشكلات إلى مهام متوازية، ويُسنِد كل مهمة إلى وكيل فرعي. المحور (orchestrator) قابل للتدريب، بينما تكون الوكلاء الفرعية نسخًا ثابتة من نقاط تدريب وسطية. فقط معلمات المحور تتغير عبر التعلم المعزز. تم تصميم هذا النظام لتفادي مشكلة "تخصيص المسؤولية" (credit assignment): إذا كانت النتيجة خاطئة، من المسؤول؟ المحور الذي قام بالتفويض، أم الوكيل الفرعي الذي نفذ المهمة؟ تم التغلب على نوعين من الفشل الناتج عن التدريب: - الانهيار التسلسلي: حيث يعود المحور إلى التنفيذ المتسلسل آمنًا. - الانطلاق الزائد: حيث يُنشئ المحور عددًا كبيرًا من الوكلاء دون تفكير حقيقي. تم حل هذه المشكلات عبر مكافآت إضافية في بداية التدريب، ثم تقليلها تدريجيًا حتى تختفي، بحيث يكون النموذج النهائي مُحسَّنًا فقط لنجاح المهمة. وفقًا لمونشوت، تحسّن أداء المهام: - BrowseComp ارتفع من 60.6% (وكيل واحد) إلى 78.4% (موجة وكلاء). - F1 في WideSearch ارتفع من 72.7% إلى 79.0%. - الوقت المستهلك انخفض بين 3 إلى 4.5 مرة في المهام المناسبة. لكن مقارنة مع Qwen3.5، الذي حقق 78.6% في BrowseComp باستخدام نفس الاستراتيجية (الإلغاء التام للنتائج غير المطلوبة)، لكن دون استخدام موجة وكلاء، يُظهر أن كي2.5 هو أول نموذج مفتوح المصدر تم تدريبه فعليًا على التوازي الوظيفي، وليس فقط من خلال هيكل خارجي. هذه خطوة جوهرية. الاختبارات والأداء أرقام مونشوت تنافسية، لكن التفاصيل مهمة: ما يتفوق فيه كي2.5: HLE-Full مع الأدوات: 50.2% (أفضل من GPT-5.2 بـ 45.5%). BrowseComp مع موجة الوكلاء: 78.4%. OCRBench: 92.3%. MathVista: 90.1%. InfoVQA: 92.6%. مقارنة: MiniMax M2.5 حقق 76.3% بدون موجة وكلاء. ما هو منافسًا ولكن متأخرًا: AIME 2025: 96.1% (أقل من GPT-5.2 بـ 100%). SWE-Bench Verified: 76.8% (أقل من Claude Opus 4.5 بـ 80.9%، وMiniMax M2.5 بـ 80.2%). GPQA-Diamond: 87.6% (أقل من GPT-5.2 بـ 92.4%، وQwen3.5 بـ 88.4%). Terminal-Bench 2.0: 50.8% (أقل من Claude بـ 59.3%). الثغرات الواضحة: WeirdML: 46% (أقل من GPT-5.2 بـ 72%). في مؤشر المعرفة AA-Omniscience من Artificial Analysis، سجّل كي2.5 -11 (عدد الأخطاء أكثر من الصحيح)، بينما Claude Opus 4.5 سجّل +10، وGemini 3 Pro +13. هذا يشير إلى تفشي التخيل (hallucination) مقارنةً بالنموذج الرائد. رغم ذلك، كان كي2.5 يُعدّ الأقوى بين النماذج المفتوحة من حيث "مؤشر الذكاء" قبل إصدار GLM-5، ويُحافظ على تفوقه على Qwen3.5 وMiniMax-M2.5، رغم أن هذه الأخيرة أصغر حجمًا. لكن لا يُستنتج من ذلك أن GLM-5 أفضل (أو العكس)، لأن التقييمات المبسطة لا تأخذ في الاعتبار ميزات مثل Agent Swarm. ملاحظات من المجتمع بعد أسبوعين من الاستخدام الجماعي، تظهر صورة واضحة: البرمجة: قوي جدًا، خاصة في المهام المرتبطة بالواجهات الأمامية والتحويل من الصورة إلى كود. تُظهر بيانات Kilo Code أن النموذج صعد بسرعة إلى المراكز الأولى في التخطيط المعماري. مطورون على r/LocalLLaMA يُفيدون ببناء مشاريع كاملة بـ 1/8 التكلفة مقارنةً بـ Opus. لكن التقييمات السلبية تشير إلى أن كي2.5 غالبًا ما يُنتج كودًا مُفرطًا في الطول والتعقيد في المرة الأولى، ثم يبسطه عند التصحيح. بينما يُنتج Opus وCodex النتيجة الصحيحة من المرة الأولى. موجة الوكلاء: مُذهلة عند نجاحها. تُستخدم في بحث ويب متوازٍ وجمع بيانات من مجالات متعددة. لكن التعديل اللاحق على نتائج الموجة صعب، والوكلاء الفرعيون يميلون إلى تفسير المفاهيم المشتركة بشكل مختلف. مثال: في مهام الجداول، استخدم كل وكيل تعريفًا مختلفًا للعمود. القدرة البصرية: أول نموذج مفتوح المصدر يُشعرك أن القدرة البصرية قوية فعلاً. ناثان لابنز اختبره في مهمة تحويل مستندات ممسوحة، حيث تفوقت النماذج الصينية سابقًا، وحقق كي2.5 أداءً يُقارن بـ Gemini 3. Qwen3.5 أيضًا يُظهر أداءً قويًا: 90.3 في MathVista، 85.0 في MMMU، وفهم واجهات المستخدم بتمييز عناصرها. لكن في الكتابة الإبداعية والشخصية، يظل متأخرًا عن Opus. ملاحظة مثيرة: وُجد أن كي2.5 يُعرّف نفسه أحيانًا على أنه Claude، مما يشير بقوة إلى مصدر بيانات التدريب. الصورة الأكبر - الإفراط في الكلام والتكلفة: عند تقييمه من قبل Artificial Analysis، أنتج كي2.5 89 مليون رمز في المخرجات. المتوسط في النماذج المشابهة هو 14 مليون. على الرغم من أن سعر الرمز يبدو رخيصًا ($0.60/$3.00 لكل مليون)، فإن إنتاج 6 أضعاف الرموز يرفع التكلفة الفعلية. اختبار Kilo Code أظهر أن الاستخدام تجاوز 50 مليار رمز يوميًا، مما أدى إلى استنتاج أن الإفراط في الكلام يُضعف فوائد التخزين المؤقت. رؤى حول التدريب متعدد الوسائط: التقرير التقني يكشف أن "الدمج المبكر" (early fusion) مع نسبة منخفضة من البيانات البصرية (10%) كان أفضل من "الدمج المتأخر" (late fusion) مع نسبة عالية (50%) في 80% من المهام. كما تم اكتشاف أن التدريب النصي فقط (zero-vision SFT) يمكنه تفعيل القدرة على التفكير البصري. حتى التدريب المُعزز بصريًا (visual RL) ساهم في تحسين الأداء النصي: MMLU-Pro ارتفع من 84.7% إلى 86.4%، وGPQA-Diamond من 84.3% إلى 86.4%. هذه النتائج تؤكد فعالية النهج متعدد الوسائط المدمج. الجغرافيا السياسية والاستدامة: تم تدريب كي2.5 على أجهزة مُقيّدة بقيود تصدير أمريكية، ومع ذلك يُنافس نماذج من مختبرات لديها وصول غير محدود للشرائح. مونشوت جمعت تمويلًا بقيمة 4.8 مليار دولار، وتُستخدم هذه الأموال في جذب المستخدمين عبر باقة مجانية واسعة، وتجارب مجانية لـ Agent Swarm. لكن من غير المرجح أن تستمر هذه السياسة على المدى الطويل. الترخيص هو Modified MIT، مفتوح للشركات حتى 100 مليون مستخدم شهريًا. التشغيل المحلي: يتطلب تشغيل كي2.5 محطة قوية: 595 جيجابايت بتنسيق INT4 الأصلي، أو 375 جيجابايت باستخدام التقليل بـ 2 بت من Unsloth — وهو الحد الأدنى العملي. على بطاقة 24 جيجابايت مع 256 جيجابايت ذاكرة، السرعة 10 رموز/ثانية. يدعم النموذج vLLM، SGLang، وKTransformers، لكن واجه بعض المشكلات في تحليل علامات الـ < > على بعض الخلفيات. دعم البصر في GGUF/llama.cpp لم يُعلن بعد. الواجهات البرمجية: 8 مزودين يقدمون K2.5 عبر API: Fireworks الأسرع (283 رمز/ثانية)، DeepInfra الأرخص ($0.90 متوسط)، وBaseten الأعلى في الإنتاجية (336 رمز/ثانية). ما هو التالي؟ كي2.5 نموذج مفتوح قوي، خصوصًا في القدرة البصرية، لكن إفراطه في الكلام قد يُشكل عائقًا عمليًا. مع تزايد المنافسة في هذا المجال، يُنصح باختبار نماذج مختلفة حسب الحاجة. لكن ما يجب مراقبته بعناية هو: هل يُمكن لـ PARL التعميم؟ هل سيُفيد في مهام واقعية متعددة، أم يقتصر على المهام البسيطة المتوازية؟ الوقت فقط سيُجيب. روابط سريعة:

منذ 5 أشهر

كيمي كي2.5 بعد أسبوعين: هل ما زال يستحق الاهتمام؟ مزيج من الوكلاء المتعددين والدمج المبكر لتحسين القدرات البصرية أطلقت شركة مونشوت آي في بكين نسخة كيمي كي2.5 في 27 يناير 2026، مُحدثةً مكانتها كواحدة من أقوى النماذج المفتوحة المصدر في مجال الذكاء الاصطناعي. بخلاف الادعاءات التقليدية حول الأداء في الاختبارات مثل HLE (50.2% مع الأدوات)، البرمجة، والقدرة البصرية، فإن الإصدار الجديد أدخل مفهوم "موجة الوكلاء" (Agent Swarm) الذي يُعدّ نقطة تحول تقنية حقيقية. وبعد أسبوعين من الاستخدام الجماعي، قررت إعادة تقييم كي2.5 مقارنةً بمنافسيها مثل GLM-5، MiniMax-M2.5، وQwen3.5. ما هو كي2.5 فعليًا؟ كيمي كي2.5 يُعدّ أحد أكبر النماذج المفتوحة المصدر من حيث الحجم، بـ 1.04 تريليون معلمة، و32 مليار معلمة نشطة لكل رمز. هذا يفوق بشكل ملحوظ النماذج الأخرى: MiniMax-M2.5 (230B-A10B)، Qwen3.5 (397B-A17B)، وGLM-5 (1T-32B). يستخدم النموذج 384 خبيرًا، مع تفعيل 8 خبراء لكل رمز، ويُعتمد عليه نظام MLA للانتباه، ووظيفة نشاط SwiGLU، ونافذة سياق تصل إلى 256K رمزًا. التصميم المعماري يبقى كما هو في كي2، الذي تم إطلاقه في منتصف 2025. ما يختلف هو عملية التدريب: بدأ كي2 بتدريب أولي على 15 تريليون رمز نصي فقط، ثم استمر كي2.5 من نقطة تدريب متقدمة (near-end checkpoint) على نحو 15 تريليون رمز مختلط بين النص والصورة، بالإضافة إلى 1 تريليون رمز للتدريب على الصور (ViT)، و700 مليار رمز لتدريب طويل السياق. إذا افترضنا عدم التداخل، فإن إجمالي البيانات المستخدمة يقارب 32 تريليون رمز — أكثر من 28.5 تريليونًا في GLM-5 (النص فقط)، بينما لم تُعلن Qwen3.5 وMiniMax-M2.5 عن أرقام مماثلة. المحول البصري هو MoonViT-3D، نموذج صغير بحجم 400 مليون معلمة، مبني على SigLIP-SO-400M، ويستخدم استراتيجية NaViT لمعالجة الصور بمقاييس متغيرة. أما في الفيديو، فيُجمَع كل أربع إطارات متتالية، ثم تُجرى معالجة زمنية لتقليل الحجم بنسبة 4x. هذه الاستراتيجية تُظهر تطورًا واضحًا في دمج البيانات البصرية مبكرًا، بينما أصبح التأخير في الدمج (late fusion) شيئًا من الماضي في النماذج الرائدة. يُوزَّع النموذج بتنسيق INT4 الأصلي (حوالي 595 جيجابايت)، وليس FP8 أو BF16. استخدمت مونشوت تدريبًا واعيًا بالكمّية (quantization-aware training) للحفاظ على الجودة. باستخدام تقنية Unsloth الديناميكية بـ 1.8 بت، يمكن تقليل الحجم إلى 240 جيجابايت فقط، مما يسمح بتشغيله على بطاقة جرافيك واحدة بسعة 24 جيجابايت مع استخدام الذاكرة الخارجية، بسرعة حوالي 10 رموز في الثانية. موجة الوكلاء: ما هو الجديد فعليًا؟ الأكثر إثارة في هذا الإصدار هو مفهوم "موجة الوكلاء" (Agent Swarm)، المدعوم بمنصة التدريب المسمّاة PARL (Parallel-Agent Reinforcement Learning). الفكرة الأساسية: بدلًا من تنفيذ مهام الوكيل بشكل متسلسل (استدعاء أداة، مراقبة النتيجة، التفكير، ثم أداة جديدة)، يتعلم كي2.5 تفكيك المشكلات إلى مهام متوازية، ويُسنِد كل مهمة إلى وكيل فرعي. المحور (orchestrator) قابل للتدريب، بينما تكون الوكلاء الفرعية نسخًا ثابتة من نقاط تدريب وسطية. فقط معلمات المحور تتغير عبر التعلم المعزز. تم تصميم هذا النظام لتفادي مشكلة "تخصيص المسؤولية" (credit assignment): إذا كانت النتيجة خاطئة، من المسؤول؟ المحور الذي قام بالتفويض، أم الوكيل الفرعي الذي نفذ المهمة؟ تم التغلب على نوعين من الفشل الناتج عن التدريب: - الانهيار التسلسلي: حيث يعود المحور إلى التنفيذ المتسلسل آمنًا. - الانطلاق الزائد: حيث يُنشئ المحور عددًا كبيرًا من الوكلاء دون تفكير حقيقي. تم حل هذه المشكلات عبر مكافآت إضافية في بداية التدريب، ثم تقليلها تدريجيًا حتى تختفي، بحيث يكون النموذج النهائي مُحسَّنًا فقط لنجاح المهمة. وفقًا لمونشوت، تحسّن أداء المهام: - BrowseComp ارتفع من 60.6% (وكيل واحد) إلى 78.4% (موجة وكلاء). - F1 في WideSearch ارتفع من 72.7% إلى 79.0%. - الوقت المستهلك انخفض بين 3 إلى 4.5 مرة في المهام المناسبة. لكن مقارنة مع Qwen3.5، الذي حقق 78.6% في BrowseComp باستخدام نفس الاستراتيجية (الإلغاء التام للنتائج غير المطلوبة)، لكن دون استخدام موجة وكلاء، يُظهر أن كي2.5 هو أول نموذج مفتوح المصدر تم تدريبه فعليًا على التوازي الوظيفي، وليس فقط من خلال هيكل خارجي. هذه خطوة جوهرية. الاختبارات والأداء أرقام مونشوت تنافسية، لكن التفاصيل مهمة: ما يتفوق فيه كي2.5: HLE-Full مع الأدوات: 50.2% (أفضل من GPT-5.2 بـ 45.5%). BrowseComp مع موجة الوكلاء: 78.4%. OCRBench: 92.3%. MathVista: 90.1%. InfoVQA: 92.6%. مقارنة: MiniMax M2.5 حقق 76.3% بدون موجة وكلاء. ما هو منافسًا ولكن متأخرًا: AIME 2025: 96.1% (أقل من GPT-5.2 بـ 100%). SWE-Bench Verified: 76.8% (أقل من Claude Opus 4.5 بـ 80.9%، وMiniMax M2.5 بـ 80.2%). GPQA-Diamond: 87.6% (أقل من GPT-5.2 بـ 92.4%، وQwen3.5 بـ 88.4%). Terminal-Bench 2.0: 50.8% (أقل من Claude بـ 59.3%). الثغرات الواضحة: WeirdML: 46% (أقل من GPT-5.2 بـ 72%). في مؤشر المعرفة AA-Omniscience من Artificial Analysis، سجّل كي2.5 -11 (عدد الأخطاء أكثر من الصحيح)، بينما Claude Opus 4.5 سجّل +10، وGemini 3 Pro +13. هذا يشير إلى تفشي التخيل (hallucination) مقارنةً بالنموذج الرائد. رغم ذلك، كان كي2.5 يُعدّ الأقوى بين النماذج المفتوحة من حيث "مؤشر الذكاء" قبل إصدار GLM-5، ويُحافظ على تفوقه على Qwen3.5 وMiniMax-M2.5، رغم أن هذه الأخيرة أصغر حجمًا. لكن لا يُستنتج من ذلك أن GLM-5 أفضل (أو العكس)، لأن التقييمات المبسطة لا تأخذ في الاعتبار ميزات مثل Agent Swarm. ملاحظات من المجتمع بعد أسبوعين من الاستخدام الجماعي، تظهر صورة واضحة: البرمجة: قوي جدًا، خاصة في المهام المرتبطة بالواجهات الأمامية والتحويل من الصورة إلى كود. تُظهر بيانات Kilo Code أن النموذج صعد بسرعة إلى المراكز الأولى في التخطيط المعماري. مطورون على r/LocalLLaMA يُفيدون ببناء مشاريع كاملة بـ 1/8 التكلفة مقارنةً بـ Opus. لكن التقييمات السلبية تشير إلى أن كي2.5 غالبًا ما يُنتج كودًا مُفرطًا في الطول والتعقيد في المرة الأولى، ثم يبسطه عند التصحيح. بينما يُنتج Opus وCodex النتيجة الصحيحة من المرة الأولى. موجة الوكلاء: مُذهلة عند نجاحها. تُستخدم في بحث ويب متوازٍ وجمع بيانات من مجالات متعددة. لكن التعديل اللاحق على نتائج الموجة صعب، والوكلاء الفرعيون يميلون إلى تفسير المفاهيم المشتركة بشكل مختلف. مثال: في مهام الجداول، استخدم كل وكيل تعريفًا مختلفًا للعمود. القدرة البصرية: أول نموذج مفتوح المصدر يُشعرك أن القدرة البصرية قوية فعلاً. ناثان لابنز اختبره في مهمة تحويل مستندات ممسوحة، حيث تفوقت النماذج الصينية سابقًا، وحقق كي2.5 أداءً يُقارن بـ Gemini 3. Qwen3.5 أيضًا يُظهر أداءً قويًا: 90.3 في MathVista، 85.0 في MMMU، وفهم واجهات المستخدم بتمييز عناصرها. لكن في الكتابة الإبداعية والشخصية، يظل متأخرًا عن Opus. ملاحظة مثيرة: وُجد أن كي2.5 يُعرّف نفسه أحيانًا على أنه Claude، مما يشير بقوة إلى مصدر بيانات التدريب. الصورة الأكبر - الإفراط في الكلام والتكلفة: عند تقييمه من قبل Artificial Analysis، أنتج كي2.5 89 مليون رمز في المخرجات. المتوسط في النماذج المشابهة هو 14 مليون. على الرغم من أن سعر الرمز يبدو رخيصًا ($0.60/$3.00 لكل مليون)، فإن إنتاج 6 أضعاف الرموز يرفع التكلفة الفعلية. اختبار Kilo Code أظهر أن الاستخدام تجاوز 50 مليار رمز يوميًا، مما أدى إلى استنتاج أن الإفراط في الكلام يُضعف فوائد التخزين المؤقت. رؤى حول التدريب متعدد الوسائط: التقرير التقني يكشف أن "الدمج المبكر" (early fusion) مع نسبة منخفضة من البيانات البصرية (10%) كان أفضل من "الدمج المتأخر" (late fusion) مع نسبة عالية (50%) في 80% من المهام. كما تم اكتشاف أن التدريب النصي فقط (zero-vision SFT) يمكنه تفعيل القدرة على التفكير البصري. حتى التدريب المُعزز بصريًا (visual RL) ساهم في تحسين الأداء النصي: MMLU-Pro ارتفع من 84.7% إلى 86.4%، وGPQA-Diamond من 84.3% إلى 86.4%. هذه النتائج تؤكد فعالية النهج متعدد الوسائط المدمج. الجغرافيا السياسية والاستدامة: تم تدريب كي2.5 على أجهزة مُقيّدة بقيود تصدير أمريكية، ومع ذلك يُنافس نماذج من مختبرات لديها وصول غير محدود للشرائح. مونشوت جمعت تمويلًا بقيمة 4.8 مليار دولار، وتُستخدم هذه الأموال في جذب المستخدمين عبر باقة مجانية واسعة، وتجارب مجانية لـ Agent Swarm. لكن من غير المرجح أن تستمر هذه السياسة على المدى الطويل. الترخيص هو Modified MIT، مفتوح للشركات حتى 100 مليون مستخدم شهريًا. التشغيل المحلي: يتطلب تشغيل كي2.5 محطة قوية: 595 جيجابايت بتنسيق INT4 الأصلي، أو 375 جيجابايت باستخدام التقليل بـ 2 بت من Unsloth — وهو الحد الأدنى العملي. على بطاقة 24 جيجابايت مع 256 جيجابايت ذاكرة، السرعة 10 رموز/ثانية. يدعم النموذج vLLM، SGLang، وKTransformers، لكن واجه بعض المشكلات في تحليل علامات الـ < > على بعض الخلفيات. دعم البصر في GGUF/llama.cpp لم يُعلن بعد. الواجهات البرمجية: 8 مزودين يقدمون K2.5 عبر API: Fireworks الأسرع (283 رمز/ثانية)، DeepInfra الأرخص ($0.90 متوسط)، وBaseten الأعلى في الإنتاجية (336 رمز/ثانية). ما هو التالي؟ كي2.5 نموذج مفتوح قوي، خصوصًا في القدرة البصرية، لكن إفراطه في الكلام قد يُشكل عائقًا عمليًا. مع تزايد المنافسة في هذا المجال، يُنصح باختبار نماذج مختلفة حسب الحاجة. لكن ما يجب مراقبته بعناية هو: هل يُمكن لـ PARL التعميم؟ هل سيُفيد في مهام واقعية متعددة، أم يقتصر على المهام البسيطة المتوازية؟ الوقت فقط سيُجيب. روابط سريعة:

بعد أسبوعين من إطلاقه، تُظهر مراجعة شاملة لنموذج Kimi K2.5 من شركة Moonshot AI في بكين أن النموذج يظل منافسًا قويًا ضمن النماذج المفتوحة المصدر، رغم بعض التحديات العملية. يمتلك K2.5 1.04 تريليون معلمة، مع 32 مليار مُفعّلة لكل رمز، وهو الأكبر بين النماذج المماثلة مثل MiniMax-M2.5 وQwen3.5 وGLM-5، ويستخدم بنية متطورة تشمل 384 خبيرًا (8 نشطين لكل رمز)، ونظام انتباه MLA، ونافذة سياق تصل إلى 256K، ونافذة دقة بصرية عالية عبر مُشفّر MoonViT-3D. الأهم في هذا الإصدار هو مفهوم "مُجمّع الوكالات" (Agent Swarm)، الذي يعتمد على إطار تدريب مبتكر يسمى PARL (Parallel-Agent Reinforcement Learning). بدلًا من تنفيذ المهام تسلسليًا، يُقسّم النموذج المهام إلى مهام متوازية يُعيّنها مُنظّم قابل للتدريب، بينما تبقى الوكالات الفرعية ثابتة (مُجمّعة من نسخ مُعدّلة من مراحل سابقة). هذا يحل مشكلة توزيع المسؤولية في التدريب، ويمنع تراجع النموذج إلى التسلسل الآمن أو إنشاء مهام متعددة غير مجدية. النتائج تُظهر تحسنًا ملحوظًا: تُحسّن درجة BrowseComp من 60.6% إلى 78.4%، وتقلّل زمن التنفيذ 3 إلى 4.5 مرة، رغم أن Qwen3.5 حقق 78.6% بنفس الاستراتيجية دون استخدام مُجمّع وكالات. في المقارنات الأداء، يتفوّق K2.5 في مهام التصور والتحليل البصري: 92.3% في OCRBench، 90.1% في MathVista، و92.6% في InfoVQA. كما يُعدّ أول نموذج مفتوح المصدر يُدرّب بشكل مباشر على العمل المتوازي. لكنه يتأخر في بعض المجالات: 46% في WeirdML، وScore -11 في اختبار المعرفة من Artificial Analysis، ما يشير إلى تحوّر أكبر في الإجابات مقارنة بـ Claude Opus 4.5 وGemini 3 Pro. في الاستخدام المجتمعي، يُظهر النموذج قوة في البرمجة، خصوصًا في التصميم الأمامي وتحويل الصور إلى كود، لكنه غالبًا ما يُنتج كودًا مفرطًا في الطول أولًا، ثم يُبسّطه عند التصحيح. في المهام البصرية، يُعدّ أول نموذج مفتوح يُنافس في دقة التعرف على المستندات الممسوحة، لكنه يُظهر ضعفًا في الكتابة الإبداعية والشخصية مقارنة بالمنافسين. ملاحظة غريبة: بعض المستخدمين لاحظوا أن النموذج يُعرّف نفسه أحيانًا كـ Claude، ما يشير إلى تشابه في بيانات التدريب. من الناحية العملية، التكلفة تُعدّ أكبر تحدي: النموذج يُنتج 6 أضعاف عدد الرموز مقارنة بالمنافسين، ما يرفع التكلفة الفعلية رغم سعره المنخفض. ويتطلب تشغيله محطة قوية: 595 جيجابايت في الدقة الأصلية، أو 375 جيجابايت باستخدام كمّية 1.8 بت (Unsloth)، ويُمكن تشغيله على بطاقة 24 جيجابايت مع ذاكرة خارجية، بسرعة 10 رموز/ثانية. دعم الرؤية غير متوفر بعد في بعض المحركات مثل GGUF/llama.cpp. بالنسبة للمستقبل، يُعدّ إمكانية تعميم مفهوم Agent Swarm على مهام واقعية غير مضمونة، لكنه يُعدّ تقدّمًا تقنيًا مهمًا. النموذج يُظهر تفوّقًا في الرؤية، ويدعم مبدأ التدريب المُتعدد الوسائط المبكر، حيث أظهر تحسينًا في المهام النصية حتى بعد تدريب بصري محدود. في النهاية، K2.5 يُعدّ نموذجًا قويًا ورائدًا في المجال، لكنه يتطلب تقييمًا دقيقًا حسب الحاجة، خصوصًا في المهام التي تتطلب كفاءة وتكلفة منخفضة.

تُجمع هذه الأخبار آليًا بالذكاء الاصطناعي لتقديم تحديثات عن القطاع بكفاءة. وهي لا تمثل آراءً أو نصائح.

الروابط ذات الصلة

Kimi K2.5: Still Worth It After Two Weeks?

Medium

HyperAI

HyperAI
القصص الرائجة
كيمي كي2.5 بعد أسبوعين: هل ما زال يستحق الاهتمام؟ مزيج من الوكلاء المتعددين والدمج المبكر لتحسين القدرات البصرية أطلقت شركة مونشوت آي في بكين نسخة كيمي كي2.5 في 27 يناير 2026، مُحدثةً مكانتها كواحدة من أقوى النماذج المفتوحة المصدر في مجال الذكاء الاصطناعي. بخلاف الادعاءات التقليدية حول الأداء في الاختبارات مثل HLE (50.2% مع الأدوات)، البرمجة، والقدرة البصرية، فإن الإصدار الجديد أدخل مفهوم "موجة الوكلاء" (Agent Swarm) الذي يُعدّ نقطة تحول تقنية حقيقية. وبعد أسبوعين من الاستخدام الجماعي، قررت إعادة تقييم كي2.5 مقارنةً بمنافسيها مثل GLM-5، MiniMax-M2.5، وQwen3.5. ما هو كي2.5 فعليًا؟ كيمي كي2.5 يُعدّ أحد أكبر النماذج المفتوحة المصدر من حيث الحجم، بـ 1.04 تريليون معلمة، و32 مليار معلمة نشطة لكل رمز. هذا يفوق بشكل ملحوظ النماذج الأخرى: MiniMax-M2.5 (230B-A10B)، Qwen3.5 (397B-A17B)، وGLM-5 (1T-32B). يستخدم النموذج 384 خبيرًا، مع تفعيل 8 خبراء لكل رمز، ويُعتمد عليه نظام MLA للانتباه، ووظيفة نشاط SwiGLU، ونافذة سياق تصل إلى 256K رمزًا. التصميم المعماري يبقى كما هو في كي2، الذي تم إطلاقه في منتصف 2025. ما يختلف هو عملية التدريب: بدأ كي2 بتدريب أولي على 15 تريليون رمز نصي فقط، ثم استمر كي2.5 من نقطة تدريب متقدمة (near-end checkpoint) على نحو 15 تريليون رمز مختلط بين النص والصورة، بالإضافة إلى 1 تريليون رمز للتدريب على الصور (ViT)، و700 مليار رمز لتدريب طويل السياق. إذا افترضنا عدم التداخل، فإن إجمالي البيانات المستخدمة يقارب 32 تريليون رمز — أكثر من 28.5 تريليونًا في GLM-5 (النص فقط)، بينما لم تُعلن Qwen3.5 وMiniMax-M2.5 عن أرقام مماثلة. المحول البصري هو MoonViT-3D، نموذج صغير بحجم 400 مليون معلمة، مبني على SigLIP-SO-400M، ويستخدم استراتيجية NaViT لمعالجة الصور بمقاييس متغيرة. أما في الفيديو، فيُجمَع كل أربع إطارات متتالية، ثم تُجرى معالجة زمنية لتقليل الحجم بنسبة 4x. هذه الاستراتيجية تُظهر تطورًا واضحًا في دمج البيانات البصرية مبكرًا، بينما أصبح التأخير في الدمج (late fusion) شيئًا من الماضي في النماذج الرائدة. يُوزَّع النموذج بتنسيق INT4 الأصلي (حوالي 595 جيجابايت)، وليس FP8 أو BF16. استخدمت مونشوت تدريبًا واعيًا بالكمّية (quantization-aware training) للحفاظ على الجودة. باستخدام تقنية Unsloth الديناميكية بـ 1.8 بت، يمكن تقليل الحجم إلى 240 جيجابايت فقط، مما يسمح بتشغيله على بطاقة جرافيك واحدة بسعة 24 جيجابايت مع استخدام الذاكرة الخارجية، بسرعة حوالي 10 رموز في الثانية. موجة الوكلاء: ما هو الجديد فعليًا؟ الأكثر إثارة في هذا الإصدار هو مفهوم "موجة الوكلاء" (Agent Swarm)، المدعوم بمنصة التدريب المسمّاة PARL (Parallel-Agent Reinforcement Learning). الفكرة الأساسية: بدلًا من تنفيذ مهام الوكيل بشكل متسلسل (استدعاء أداة، مراقبة النتيجة، التفكير، ثم أداة جديدة)، يتعلم كي2.5 تفكيك المشكلات إلى مهام متوازية، ويُسنِد كل مهمة إلى وكيل فرعي. المحور (orchestrator) قابل للتدريب، بينما تكون الوكلاء الفرعية نسخًا ثابتة من نقاط تدريب وسطية. فقط معلمات المحور تتغير عبر التعلم المعزز. تم تصميم هذا النظام لتفادي مشكلة "تخصيص المسؤولية" (credit assignment): إذا كانت النتيجة خاطئة، من المسؤول؟ المحور الذي قام بالتفويض، أم الوكيل الفرعي الذي نفذ المهمة؟ تم التغلب على نوعين من الفشل الناتج عن التدريب: - الانهيار التسلسلي: حيث يعود المحور إلى التنفيذ المتسلسل آمنًا. - الانطلاق الزائد: حيث يُنشئ المحور عددًا كبيرًا من الوكلاء دون تفكير حقيقي. تم حل هذه المشكلات عبر مكافآت إضافية في بداية التدريب، ثم تقليلها تدريجيًا حتى تختفي، بحيث يكون النموذج النهائي مُحسَّنًا فقط لنجاح المهمة. وفقًا لمونشوت، تحسّن أداء المهام: - BrowseComp ارتفع من 60.6% (وكيل واحد) إلى 78.4% (موجة وكلاء). - F1 في WideSearch ارتفع من 72.7% إلى 79.0%. - الوقت المستهلك انخفض بين 3 إلى 4.5 مرة في المهام المناسبة. لكن مقارنة مع Qwen3.5، الذي حقق 78.6% في BrowseComp باستخدام نفس الاستراتيجية (الإلغاء التام للنتائج غير المطلوبة)، لكن دون استخدام موجة وكلاء، يُظهر أن كي2.5 هو أول نموذج مفتوح المصدر تم تدريبه فعليًا على التوازي الوظيفي، وليس فقط من خلال هيكل خارجي. هذه خطوة جوهرية. الاختبارات والأداء أرقام مونشوت تنافسية، لكن التفاصيل مهمة: ما يتفوق فيه كي2.5: HLE-Full مع الأدوات: 50.2% (أفضل من GPT-5.2 بـ 45.5%). BrowseComp مع موجة الوكلاء: 78.4%. OCRBench: 92.3%. MathVista: 90.1%. InfoVQA: 92.6%. مقارنة: MiniMax M2.5 حقق 76.3% بدون موجة وكلاء. ما هو منافسًا ولكن متأخرًا: AIME 2025: 96.1% (أقل من GPT-5.2 بـ 100%). SWE-Bench Verified: 76.8% (أقل من Claude Opus 4.5 بـ 80.9%، وMiniMax M2.5 بـ 80.2%). GPQA-Diamond: 87.6% (أقل من GPT-5.2 بـ 92.4%، وQwen3.5 بـ 88.4%). Terminal-Bench 2.0: 50.8% (أقل من Claude بـ 59.3%). الثغرات الواضحة: WeirdML: 46% (أقل من GPT-5.2 بـ 72%). في مؤشر المعرفة AA-Omniscience من Artificial Analysis، سجّل كي2.5 -11 (عدد الأخطاء أكثر من الصحيح)، بينما Claude Opus 4.5 سجّل +10، وGemini 3 Pro +13. هذا يشير إلى تفشي التخيل (hallucination) مقارنةً بالنموذج الرائد. رغم ذلك، كان كي2.5 يُعدّ الأقوى بين النماذج المفتوحة من حيث "مؤشر الذكاء" قبل إصدار GLM-5، ويُحافظ على تفوقه على Qwen3.5 وMiniMax-M2.5، رغم أن هذه الأخيرة أصغر حجمًا. لكن لا يُستنتج من ذلك أن GLM-5 أفضل (أو العكس)، لأن التقييمات المبسطة لا تأخذ في الاعتبار ميزات مثل Agent Swarm. ملاحظات من المجتمع بعد أسبوعين من الاستخدام الجماعي، تظهر صورة واضحة: البرمجة: قوي جدًا، خاصة في المهام المرتبطة بالواجهات الأمامية والتحويل من الصورة إلى كود. تُظهر بيانات Kilo Code أن النموذج صعد بسرعة إلى المراكز الأولى في التخطيط المعماري. مطورون على r/LocalLLaMA يُفيدون ببناء مشاريع كاملة بـ 1/8 التكلفة مقارنةً بـ Opus. لكن التقييمات السلبية تشير إلى أن كي2.5 غالبًا ما يُنتج كودًا مُفرطًا في الطول والتعقيد في المرة الأولى، ثم يبسطه عند التصحيح. بينما يُنتج Opus وCodex النتيجة الصحيحة من المرة الأولى. موجة الوكلاء: مُذهلة عند نجاحها. تُستخدم في بحث ويب متوازٍ وجمع بيانات من مجالات متعددة. لكن التعديل اللاحق على نتائج الموجة صعب، والوكلاء الفرعيون يميلون إلى تفسير المفاهيم المشتركة بشكل مختلف. مثال: في مهام الجداول، استخدم كل وكيل تعريفًا مختلفًا للعمود. القدرة البصرية: أول نموذج مفتوح المصدر يُشعرك أن القدرة البصرية قوية فعلاً. ناثان لابنز اختبره في مهمة تحويل مستندات ممسوحة، حيث تفوقت النماذج الصينية سابقًا، وحقق كي2.5 أداءً يُقارن بـ Gemini 3. Qwen3.5 أيضًا يُظهر أداءً قويًا: 90.3 في MathVista، 85.0 في MMMU، وفهم واجهات المستخدم بتمييز عناصرها. لكن في الكتابة الإبداعية والشخصية، يظل متأخرًا عن Opus. ملاحظة مثيرة: وُجد أن كي2.5 يُعرّف نفسه أحيانًا على أنه Claude، مما يشير بقوة إلى مصدر بيانات التدريب. الصورة الأكبر - الإفراط في الكلام والتكلفة: عند تقييمه من قبل Artificial Analysis، أنتج كي2.5 89 مليون رمز في المخرجات. المتوسط في النماذج المشابهة هو 14 مليون. على الرغم من أن سعر الرمز يبدو رخيصًا ($0.60/$3.00 لكل مليون)، فإن إنتاج 6 أضعاف الرموز يرفع التكلفة الفعلية. اختبار Kilo Code أظهر أن الاستخدام تجاوز 50 مليار رمز يوميًا، مما أدى إلى استنتاج أن الإفراط في الكلام يُضعف فوائد التخزين المؤقت. رؤى حول التدريب متعدد الوسائط: التقرير التقني يكشف أن "الدمج المبكر" (early fusion) مع نسبة منخفضة من البيانات البصرية (10%) كان أفضل من "الدمج المتأخر" (late fusion) مع نسبة عالية (50%) في 80% من المهام. كما تم اكتشاف أن التدريب النصي فقط (zero-vision SFT) يمكنه تفعيل القدرة على التفكير البصري. حتى التدريب المُعزز بصريًا (visual RL) ساهم في تحسين الأداء النصي: MMLU-Pro ارتفع من 84.7% إلى 86.4%، وGPQA-Diamond من 84.3% إلى 86.4%. هذه النتائج تؤكد فعالية النهج متعدد الوسائط المدمج. الجغرافيا السياسية والاستدامة: تم تدريب كي2.5 على أجهزة مُقيّدة بقيود تصدير أمريكية، ومع ذلك يُنافس نماذج من مختبرات لديها وصول غير محدود للشرائح. مونشوت جمعت تمويلًا بقيمة 4.8 مليار دولار، وتُستخدم هذه الأموال في جذب المستخدمين عبر باقة مجانية واسعة، وتجارب مجانية لـ Agent Swarm. لكن من غير المرجح أن تستمر هذه السياسة على المدى الطويل. الترخيص هو Modified MIT، مفتوح للشركات حتى 100 مليون مستخدم شهريًا. التشغيل المحلي: يتطلب تشغيل كي2.5 محطة قوية: 595 جيجابايت بتنسيق INT4 الأصلي، أو 375 جيجابايت باستخدام التقليل بـ 2 بت من Unsloth — وهو الحد الأدنى العملي. على بطاقة 24 جيجابايت مع 256 جيجابايت ذاكرة، السرعة 10 رموز/ثانية. يدعم النموذج vLLM، SGLang، وKTransformers، لكن واجه بعض المشكلات في تحليل علامات الـ < > على بعض الخلفيات. دعم البصر في GGUF/llama.cpp لم يُعلن بعد. الواجهات البرمجية: 8 مزودين يقدمون K2.5 عبر API: Fireworks الأسرع (283 رمز/ثانية)، DeepInfra الأرخص ($0.90 متوسط)، وBaseten الأعلى في الإنتاجية (336 رمز/ثانية). ما هو التالي؟ كي2.5 نموذج مفتوح قوي، خصوصًا في القدرة البصرية، لكن إفراطه في الكلام قد يُشكل عائقًا عمليًا. مع تزايد المنافسة في هذا المجال، يُنصح باختبار نماذج مختلفة حسب الحاجة. لكن ما يجب مراقبته بعناية هو: هل يُمكن لـ PARL التعميم؟ هل سيُفيد في مهام واقعية متعددة، أم يقتصر على المهام البسيطة المتوازية؟ الوقت فقط سيُجيب. روابط سريعة:

منذ 5 أشهر

LLM

متعدد الوسائط

فهم المستندات

كيمي كي2.5 بعد أسبوعين: هل ما زال يستحق الاهتمام؟ مزيج من الوكلاء المتعددين والدمج المبكر لتحسين القدرات البصرية أطلقت شركة مونشوت آي في بكين نسخة كيمي كي2.5 في 27 يناير 2026، مُحدثةً مكانتها كواحدة من أقوى النماذج المفتوحة المصدر في مجال الذكاء الاصطناعي. بخلاف الادعاءات التقليدية حول الأداء في الاختبارات مثل HLE (50.2% مع الأدوات)، البرمجة، والقدرة البصرية، فإن الإصدار الجديد أدخل مفهوم "موجة الوكلاء" (Agent Swarm) الذي يُعدّ نقطة تحول تقنية حقيقية. وبعد أسبوعين من الاستخدام الجماعي، قررت إعادة تقييم كي2.5 مقارنةً بمنافسيها مثل GLM-5، MiniMax-M2.5، وQwen3.5. ما هو كي2.5 فعليًا؟ كيمي كي2.5 يُعدّ أحد أكبر النماذج المفتوحة المصدر من حيث الحجم، بـ 1.04 تريليون معلمة، و32 مليار معلمة نشطة لكل رمز. هذا يفوق بشكل ملحوظ النماذج الأخرى: MiniMax-M2.5 (230B-A10B)، Qwen3.5 (397B-A17B)، وGLM-5 (1T-32B). يستخدم النموذج 384 خبيرًا، مع تفعيل 8 خبراء لكل رمز، ويُعتمد عليه نظام MLA للانتباه، ووظيفة نشاط SwiGLU، ونافذة سياق تصل إلى 256K رمزًا. التصميم المعماري يبقى كما هو في كي2، الذي تم إطلاقه في منتصف 2025. ما يختلف هو عملية التدريب: بدأ كي2 بتدريب أولي على 15 تريليون رمز نصي فقط، ثم استمر كي2.5 من نقطة تدريب متقدمة (near-end checkpoint) على نحو 15 تريليون رمز مختلط بين النص والصورة، بالإضافة إلى 1 تريليون رمز للتدريب على الصور (ViT)، و700 مليار رمز لتدريب طويل السياق. إذا افترضنا عدم التداخل، فإن إجمالي البيانات المستخدمة يقارب 32 تريليون رمز — أكثر من 28.5 تريليونًا في GLM-5 (النص فقط)، بينما لم تُعلن Qwen3.5 وMiniMax-M2.5 عن أرقام مماثلة. المحول البصري هو MoonViT-3D، نموذج صغير بحجم 400 مليون معلمة، مبني على SigLIP-SO-400M، ويستخدم استراتيجية NaViT لمعالجة الصور بمقاييس متغيرة. أما في الفيديو، فيُجمَع كل أربع إطارات متتالية، ثم تُجرى معالجة زمنية لتقليل الحجم بنسبة 4x. هذه الاستراتيجية تُظهر تطورًا واضحًا في دمج البيانات البصرية مبكرًا، بينما أصبح التأخير في الدمج (late fusion) شيئًا من الماضي في النماذج الرائدة. يُوزَّع النموذج بتنسيق INT4 الأصلي (حوالي 595 جيجابايت)، وليس FP8 أو BF16. استخدمت مونشوت تدريبًا واعيًا بالكمّية (quantization-aware training) للحفاظ على الجودة. باستخدام تقنية Unsloth الديناميكية بـ 1.8 بت، يمكن تقليل الحجم إلى 240 جيجابايت فقط، مما يسمح بتشغيله على بطاقة جرافيك واحدة بسعة 24 جيجابايت مع استخدام الذاكرة الخارجية، بسرعة حوالي 10 رموز في الثانية. موجة الوكلاء: ما هو الجديد فعليًا؟ الأكثر إثارة في هذا الإصدار هو مفهوم "موجة الوكلاء" (Agent Swarm)، المدعوم بمنصة التدريب المسمّاة PARL (Parallel-Agent Reinforcement Learning). الفكرة الأساسية: بدلًا من تنفيذ مهام الوكيل بشكل متسلسل (استدعاء أداة، مراقبة النتيجة، التفكير، ثم أداة جديدة)، يتعلم كي2.5 تفكيك المشكلات إلى مهام متوازية، ويُسنِد كل مهمة إلى وكيل فرعي. المحور (orchestrator) قابل للتدريب، بينما تكون الوكلاء الفرعية نسخًا ثابتة من نقاط تدريب وسطية. فقط معلمات المحور تتغير عبر التعلم المعزز. تم تصميم هذا النظام لتفادي مشكلة "تخصيص المسؤولية" (credit assignment): إذا كانت النتيجة خاطئة، من المسؤول؟ المحور الذي قام بالتفويض، أم الوكيل الفرعي الذي نفذ المهمة؟ تم التغلب على نوعين من الفشل الناتج عن التدريب: - الانهيار التسلسلي: حيث يعود المحور إلى التنفيذ المتسلسل آمنًا. - الانطلاق الزائد: حيث يُنشئ المحور عددًا كبيرًا من الوكلاء دون تفكير حقيقي. تم حل هذه المشكلات عبر مكافآت إضافية في بداية التدريب، ثم تقليلها تدريجيًا حتى تختفي، بحيث يكون النموذج النهائي مُحسَّنًا فقط لنجاح المهمة. وفقًا لمونشوت، تحسّن أداء المهام: - BrowseComp ارتفع من 60.6% (وكيل واحد) إلى 78.4% (موجة وكلاء). - F1 في WideSearch ارتفع من 72.7% إلى 79.0%. - الوقت المستهلك انخفض بين 3 إلى 4.5 مرة في المهام المناسبة. لكن مقارنة مع Qwen3.5، الذي حقق 78.6% في BrowseComp باستخدام نفس الاستراتيجية (الإلغاء التام للنتائج غير المطلوبة)، لكن دون استخدام موجة وكلاء، يُظهر أن كي2.5 هو أول نموذج مفتوح المصدر تم تدريبه فعليًا على التوازي الوظيفي، وليس فقط من خلال هيكل خارجي. هذه خطوة جوهرية. الاختبارات والأداء أرقام مونشوت تنافسية، لكن التفاصيل مهمة: ما يتفوق فيه كي2.5: HLE-Full مع الأدوات: 50.2% (أفضل من GPT-5.2 بـ 45.5%). BrowseComp مع موجة الوكلاء: 78.4%. OCRBench: 92.3%. MathVista: 90.1%. InfoVQA: 92.6%. مقارنة: MiniMax M2.5 حقق 76.3% بدون موجة وكلاء. ما هو منافسًا ولكن متأخرًا: AIME 2025: 96.1% (أقل من GPT-5.2 بـ 100%). SWE-Bench Verified: 76.8% (أقل من Claude Opus 4.5 بـ 80.9%، وMiniMax M2.5 بـ 80.2%). GPQA-Diamond: 87.6% (أقل من GPT-5.2 بـ 92.4%، وQwen3.5 بـ 88.4%). Terminal-Bench 2.0: 50.8% (أقل من Claude بـ 59.3%). الثغرات الواضحة: WeirdML: 46% (أقل من GPT-5.2 بـ 72%). في مؤشر المعرفة AA-Omniscience من Artificial Analysis، سجّل كي2.5 -11 (عدد الأخطاء أكثر من الصحيح)، بينما Claude Opus 4.5 سجّل +10، وGemini 3 Pro +13. هذا يشير إلى تفشي التخيل (hallucination) مقارنةً بالنموذج الرائد. رغم ذلك، كان كي2.5 يُعدّ الأقوى بين النماذج المفتوحة من حيث "مؤشر الذكاء" قبل إصدار GLM-5، ويُحافظ على تفوقه على Qwen3.5 وMiniMax-M2.5، رغم أن هذه الأخيرة أصغر حجمًا. لكن لا يُستنتج من ذلك أن GLM-5 أفضل (أو العكس)، لأن التقييمات المبسطة لا تأخذ في الاعتبار ميزات مثل Agent Swarm. ملاحظات من المجتمع بعد أسبوعين من الاستخدام الجماعي، تظهر صورة واضحة: البرمجة: قوي جدًا، خاصة في المهام المرتبطة بالواجهات الأمامية والتحويل من الصورة إلى كود. تُظهر بيانات Kilo Code أن النموذج صعد بسرعة إلى المراكز الأولى في التخطيط المعماري. مطورون على r/LocalLLaMA يُفيدون ببناء مشاريع كاملة بـ 1/8 التكلفة مقارنةً بـ Opus. لكن التقييمات السلبية تشير إلى أن كي2.5 غالبًا ما يُنتج كودًا مُفرطًا في الطول والتعقيد في المرة الأولى، ثم يبسطه عند التصحيح. بينما يُنتج Opus وCodex النتيجة الصحيحة من المرة الأولى. موجة الوكلاء: مُذهلة عند نجاحها. تُستخدم في بحث ويب متوازٍ وجمع بيانات من مجالات متعددة. لكن التعديل اللاحق على نتائج الموجة صعب، والوكلاء الفرعيون يميلون إلى تفسير المفاهيم المشتركة بشكل مختلف. مثال: في مهام الجداول، استخدم كل وكيل تعريفًا مختلفًا للعمود. القدرة البصرية: أول نموذج مفتوح المصدر يُشعرك أن القدرة البصرية قوية فعلاً. ناثان لابنز اختبره في مهمة تحويل مستندات ممسوحة، حيث تفوقت النماذج الصينية سابقًا، وحقق كي2.5 أداءً يُقارن بـ Gemini 3. Qwen3.5 أيضًا يُظهر أداءً قويًا: 90.3 في MathVista، 85.0 في MMMU، وفهم واجهات المستخدم بتمييز عناصرها. لكن في الكتابة الإبداعية والشخصية، يظل متأخرًا عن Opus. ملاحظة مثيرة: وُجد أن كي2.5 يُعرّف نفسه أحيانًا على أنه Claude، مما يشير بقوة إلى مصدر بيانات التدريب. الصورة الأكبر - الإفراط في الكلام والتكلفة: عند تقييمه من قبل Artificial Analysis، أنتج كي2.5 89 مليون رمز في المخرجات. المتوسط في النماذج المشابهة هو 14 مليون. على الرغم من أن سعر الرمز يبدو رخيصًا ($0.60/$3.00 لكل مليون)، فإن إنتاج 6 أضعاف الرموز يرفع التكلفة الفعلية. اختبار Kilo Code أظهر أن الاستخدام تجاوز 50 مليار رمز يوميًا، مما أدى إلى استنتاج أن الإفراط في الكلام يُضعف فوائد التخزين المؤقت. رؤى حول التدريب متعدد الوسائط: التقرير التقني يكشف أن "الدمج المبكر" (early fusion) مع نسبة منخفضة من البيانات البصرية (10%) كان أفضل من "الدمج المتأخر" (late fusion) مع نسبة عالية (50%) في 80% من المهام. كما تم اكتشاف أن التدريب النصي فقط (zero-vision SFT) يمكنه تفعيل القدرة على التفكير البصري. حتى التدريب المُعزز بصريًا (visual RL) ساهم في تحسين الأداء النصي: MMLU-Pro ارتفع من 84.7% إلى 86.4%، وGPQA-Diamond من 84.3% إلى 86.4%. هذه النتائج تؤكد فعالية النهج متعدد الوسائط المدمج. الجغرافيا السياسية والاستدامة: تم تدريب كي2.5 على أجهزة مُقيّدة بقيود تصدير أمريكية، ومع ذلك يُنافس نماذج من مختبرات لديها وصول غير محدود للشرائح. مونشوت جمعت تمويلًا بقيمة 4.8 مليار دولار، وتُستخدم هذه الأموال في جذب المستخدمين عبر باقة مجانية واسعة، وتجارب مجانية لـ Agent Swarm. لكن من غير المرجح أن تستمر هذه السياسة على المدى الطويل. الترخيص هو Modified MIT، مفتوح للشركات حتى 100 مليون مستخدم شهريًا. التشغيل المحلي: يتطلب تشغيل كي2.5 محطة قوية: 595 جيجابايت بتنسيق INT4 الأصلي، أو 375 جيجابايت باستخدام التقليل بـ 2 بت من Unsloth — وهو الحد الأدنى العملي. على بطاقة 24 جيجابايت مع 256 جيجابايت ذاكرة، السرعة 10 رموز/ثانية. يدعم النموذج vLLM، SGLang، وKTransformers، لكن واجه بعض المشكلات في تحليل علامات الـ < > على بعض الخلفيات. دعم البصر في GGUF/llama.cpp لم يُعلن بعد. الواجهات البرمجية: 8 مزودين يقدمون K2.5 عبر API: Fireworks الأسرع (283 رمز/ثانية)، DeepInfra الأرخص ($0.90 متوسط)، وBaseten الأعلى في الإنتاجية (336 رمز/ثانية). ما هو التالي؟ كي2.5 نموذج مفتوح قوي، خصوصًا في القدرة البصرية، لكن إفراطه في الكلام قد يُشكل عائقًا عمليًا. مع تزايد المنافسة في هذا المجال، يُنصح باختبار نماذج مختلفة حسب الحاجة. لكن ما يجب مراقبته بعناية هو: هل يُمكن لـ PARL التعميم؟ هل سيُفيد في مهام واقعية متعددة، أم يقتصر على المهام البسيطة المتوازية؟ الوقت فقط سيُجيب. روابط سريعة:

تُجمع هذه الأخبار آليًا بالذكاء الاصطناعي لتقديم تحديثات عن القطاع بكفاءة. وهي لا تمثل آراءً أو نصائح.

الروابط ذات الصلة

Kimi K2.5: Still Worth It After Two Weeks?

Medium

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

برنامج تعليمي عبر الإنترنت | تحميل سير عمل ComfyUI بنقرة واحدة: إتقان الرسم بالذكاء الاصطناعي دون كتابة سطر واحد من التعليمات البرمجية

برنامج تعليمي عبر الإنترنت | تحميل سير عمل ComfyUI بنقرة واحدة: إتقان الرسم بالذكاء الاصطناعي دون كتابة سطر واحد من التعليمات البرمجية

Command Palette

الروابط ذات الصلة

Command Palette

الروابط ذات الصلة

Command Palette

الروابط ذات الصلة

برنامج تعليمي عبر الإنترنت | تحميل سير عمل ComfyUI بنقرة واحدة: إتقان الرسم بالذكاء الاصطناعي دون كتابة سطر واحد من التعليمات البرمجية

برنامج تعليمي عبر الإنترنت | تحميل سير عمل ComfyUI بنقرة واحدة: إتقان الرسم بالذكاء الاصطناعي دون كتابة سطر واحد من التعليمات البرمجية