LiveMCP-101: اختبار التحمل وتشخيص الوكلاء المدعومين بـ MCP على استفسارات صعبة

أصبحت قدرة التفاعل مع الأدوات من القدرات الحاسمة للنماذج الذكية الاصطناعية (AI agents) للتفاعل مع العالم الحقيقي وحل المهام المعقدة. وعلى الرغم من أن بروتوكول السياق النموذجي (MCP) يوفر إطارًا قياسيًا قويًا لدمج الأدوات، إلا أن هناك فجوة كبيرة في تقييم مدى كفاءة النماذج الذكية في حل المهام متعددة الخطوات باستخدام مجموعة متنوعة من أدوات MCP في سياقات واقعية ديناميكية. في هذا العمل، نقدّم "LiveMCP-101"، وهو معيار تقييم يضم 101 استعلامًا واقعيًا مُختارة بعناية، وتم تحسينها عبر عمليات إعادة صياغة متكررة باستخدام نماذج لغوية كبيرة (LLMs) ومراجعة يدوية، وتتطلب استخدامًا متناسقًا لعدة أدوات MCP، منها البحث عبر الويب، وعمليات التعامل مع الملفات، والاستدلال الرياضي، وتحليل البيانات. علاوةً على ذلك، نقدّم منهجية تقييم جديدة تعتمد على خطط التنفيذ الصحيحة (ground-truth execution plans) بدلًا من مخرجات واجهات برمجة التطبيقات (API) الخام، مما يعكس بشكل أفضل الطبيعة المتغيرة للبيئات الواقعية. تُظهر النتائج التجريبية أن حتى أقوى النماذج اللغوية الكبيرة تحقق معدل نجاح أقل من 60٪، مما يبرز التحديات الكبرى في تنسيق استخدام الأدوات. كما كشف التحليل المفصل للنتائج والتحليلات المُبَدَّلة (ablations) وأخطاء الأداء عن أنماط فشل مميزة، وسلبيات في استخدام الرموز (tokens)، مما يُرشد إلى اتجاهات محددة لتحسين النماذج الحالية. يُعدّ LiveMCP-101 معيارًا صارمًا لتقييم القدرات الواقعية للنماذج الذكية، ويساهم في التقدم نحو أنظمة ذكاء اصطناعي ذاتية الاعتماد التي تُنفّذ مهام معقدة بشكل موثوق من خلال استخدام الأدوات.