منذ 2 أيام

LiveMCP-101: اختبار التحمل وتشخيص الوكلاء المدعومين بـ MCP على استفسارات صعبة

Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song

عرض تفاصيل الورقة البحثية

LiveMCP-101: اختبار التحمل وتشخيص الوكلاء المدعومين بـ MCP على استفسارات صعبة

الملخص

أصبحت قدرة التفاعل مع الأدوات من القدرات الحاسمة للنماذج الذكية الاصطناعية (AI agents) للتفاعل مع العالم الحقيقي وحل المهام المعقدة. وعلى الرغم من أن بروتوكول السياق النموذجي (MCP) يوفر إطارًا قياسيًا قويًا لدمج الأدوات، إلا أن هناك فجوة كبيرة في تقييم مدى كفاءة النماذج الذكية في حل المهام متعددة الخطوات باستخدام مجموعة متنوعة من أدوات MCP في سياقات واقعية ديناميكية. في هذا العمل، نقدّم "LiveMCP-101"، وهو معيار تقييم يضم 101 استعلامًا واقعيًا مُختارة بعناية، وتم تحسينها عبر عمليات إعادة صياغة متكررة باستخدام نماذج لغوية كبيرة (LLMs) ومراجعة يدوية، وتتطلب استخدامًا متناسقًا لعدة أدوات MCP، منها البحث عبر الويب، وعمليات التعامل مع الملفات، والاستدلال الرياضي، وتحليل البيانات. علاوةً على ذلك، نقدّم منهجية تقييم جديدة تعتمد على خطط التنفيذ الصحيحة (ground-truth execution plans) بدلًا من مخرجات واجهات برمجة التطبيقات (API) الخام، مما يعكس بشكل أفضل الطبيعة المتغيرة للبيئات الواقعية. تُظهر النتائج التجريبية أن حتى أقوى النماذج اللغوية الكبيرة تحقق معدل نجاح أقل من 60٪، مما يبرز التحديات الكبرى في تنسيق استخدام الأدوات. كما كشف التحليل المفصل للنتائج والتحليلات المُبَدَّلة (ablations) وأخطاء الأداء عن أنماط فشل مميزة، وسلبيات في استخدام الرموز (tokens)، مما يُرشد إلى اتجاهات محددة لتحسين النماذج الحالية. يُعدّ LiveMCP-101 معيارًا صارمًا لتقييم القدرات الواقعية للنماذج الذكية، ويساهم في التقدم نحو أنظمة ذكاء اصطناعي ذاتية الاعتماد التي تُنفّذ مهام معقدة بشكل موثوق من خلال استخدام الأدوات.