HyperAIHyperAI

Command Palette

Search for a command to run...

LiveMCP-101: اختبار التحمل وتشخيص الوكلاء المدعومين بـ MCP على استفسارات صعبة

الملخص

أصبحت قدرة التفاعل مع الأدوات من القدرات الحاسمة للنماذج الذكية الاصطناعية (AI agents) للتفاعل مع العالم الحقيقي وحل المهام المعقدة. وعلى الرغم من أن بروتوكول السياق النموذجي (MCP) يوفر إطارًا قياسيًا قويًا لدمج الأدوات، إلا أن هناك فجوة كبيرة في تقييم مدى كفاءة النماذج الذكية في حل المهام متعددة الخطوات باستخدام مجموعة متنوعة من أدوات MCP في سياقات واقعية ديناميكية. في هذا العمل، نقدّم "LiveMCP-101"، وهو معيار تقييم يضم 101 استعلامًا واقعيًا مُختارة بعناية، وتم تحسينها عبر عمليات إعادة صياغة متكررة باستخدام نماذج لغوية كبيرة (LLMs) ومراجعة يدوية، وتتطلب استخدامًا متناسقًا لعدة أدوات MCP، منها البحث عبر الويب، وعمليات التعامل مع الملفات، والاستدلال الرياضي، وتحليل البيانات. علاوةً على ذلك، نقدّم منهجية تقييم جديدة تعتمد على خطط التنفيذ الصحيحة (ground-truth execution plans) بدلًا من مخرجات واجهات برمجة التطبيقات (API) الخام، مما يعكس بشكل أفضل الطبيعة المتغيرة للبيئات الواقعية. تُظهر النتائج التجريبية أن حتى أقوى النماذج اللغوية الكبيرة تحقق معدل نجاح أقل من 60٪، مما يبرز التحديات الكبرى في تنسيق استخدام الأدوات. كما كشف التحليل المفصل للنتائج والتحليلات المُبَدَّلة (ablations) وأخطاء الأداء عن أنماط فشل مميزة، وسلبيات في استخدام الرموز (tokens)، مما يُرشد إلى اتجاهات محددة لتحسين النماذج الحالية. يُعدّ LiveMCP-101 معيارًا صارمًا لتقييم القدرات الواقعية للنماذج الذكية، ويساهم في التقدم نحو أنظمة ذكاء اصطناعي ذاتية الاعتماد التي تُنفّذ مهام معقدة بشكل موثوق من خلال استخدام الأدوات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
LiveMCP-101: اختبار التحمل وتشخيص الوكلاء المدعومين بـ MCP على استفسارات صعبة | مستندات | HyperAI