IBM وUC بيركلي يحللان أسباب فشل أنظمة الوكالات في المؤسسات باستخدام ITBench وMAST
أظهرت دراسة مشتركة بين IBM وجامعة كاليفورنيا في بيركلي أن المعايير التقليدية لتقييم النماذج الذكية الاصطناعية (النماذج العاملة كوكالات) في بيئات العمل المؤسسية، مثل ITBench، تعاني من عيب جوهري: فهي تُظهر فقط ما إذا نجح النظام أم فشل، لكنها لا توضح سبب الفشل. لمعالجة هذه "الصناديق السوداء" في التقييم، استخدم الباحثون نموذجًا جديدًا للتشخيص يُدعى MAST (تصنيف فشل الأنظمة متعددة الوكلاء)، الذي يحول السجلات غير المنظمة لعمليات الأنظمة إلى "متجهات فشل" منظمة تُحدد نوع الخطأ، مكانه، وطريقة إصلاحه. تم تطبيق MAST على 310 مسارًا من مسارات تقييم ITBench، التي تُحاكي مهام واقعية في إدارة البنية التحتية مثل استجابة حوادث كوبيرنيتيس، وتحليل السجلات، وإدارة التكاليف السحابية. تم اختبار ثلاثة نماذج مختلفة من النماذج الكبيرة: Gemini-3-Flash (نموذج متطور من جوجل)، Kimi-K2 (نموذج مفتوح المصدر)، وGPT-OSS-120B (نموذج مفتوح مدمج). أبرز النتائج أظهرت تباينًا واضحًا في طريقة فشل هذه النماذج. نموذج Gemini-3-Flash، رغم كونه الأقوى من حيث الأداء، يُظهر فشلًا جراحيًا: غالبًا ما يفشل بسبب خطأ واحد محدد، مثل تحقق خاطئ من النتيجة، مما يجعله سهل التصحيح. أما GPT-OSS-120B، فيُظهر فشلًا مُتسلسلاً، حيث يبدأ خطأ صغير في التفكير ثم يتفاقم بسرعة، مما يؤدي إلى انهيار كامل للعملية، مع متوسط 5.3 نمط فشل في كل مسار فاشل. كما كشفت الدراسة عن تمييز حاسم بين "الفشل غير الفادح" و"الفشل الفادح". بعض الأخطاء، مثل التكرار في التفاعل أو تأخير في التصريح، تظهر حتى في المسارات الناجحة، وهي ما يمكن تجاوزه. أما الأخطاء الفادحة، مثل التحقق الخاطئ (FM-3.3)، أو عدم معرفة شروط إنهاء المهمة (FM-1.5)، أو تناقض بين التفكير والعمل (FM-2.6)، فهي تُسبب فشلًا شبه مؤكد. على سبيل المثال، ارتفع معدل فشل Gemini-3-Flash بنسبة 52% عند وجود خطأ في التحقق. أظهرت الدراسة أيضًا أن كل نموذج يعاني من مشكلات مميزة: Gemini-3-Flash يُبالغ في الثقة بنفسه ويُنهي المهمة قبل التأكد من النتيجة، مما يستدعي إدخال "بوابة تحقق خارجية" تعتمد على أدوات حقيقية (مثل تأكيد حالة خدمة أو تغيير في وحدة كوبيرنيتيس). أما Kimi-K2، فيعاني من تفكير مفرط وعدم قدرة على التوقف، ما يستدعي استخدام آليات تحكم محددة (مثل آلة حالة منظمة) لتحديد متى تنتهي المهمة. بينما GPT-OSS-120B يعاني من انهيار نظمي بسبب تراكم أخطاء صغيرة، مما يتطلب تنظيفًا دقيقًا للسياق وكشفًا مبكرًا للأخطاء. الاستنتاج هو أن التقييم الفعّال للوكالات الذكية لا يكفي أن يُقيّم النجاح فقط، بل يجب أن يُفكك الفشل إلى مكوناته الدقيقة. من خلال MAST، يمكن تحويل التقييم من مجرد أرقام إلى خريطة هندسية دقيقة للتحسين، تُحدد التدخلات الأكثر فاعلية لكل نموذج، مما يُعزز موثوقية الأنظمة في بيئات العمل الحقيقية.
