Command Palette
Search for a command to run...
MCP-Bench: أداة تقييم لوكالات نماذج اللغة الكبيرة التي تستخدم الأدوات بمهمات واقعية معقدة من خلال خوادم MCP

الملخص
نقدّم MCP-Bench، معيارًا لتقييم النماذج اللغوية الكبيرة (LLMs) في المهام الواقعية متعددة الخطوات التي تتطلب استخدام أدوات، والتنسيق بين الأدوات، والتحكم الدقيق في المعاملات، والتخطيط والتفكير المنطقي لحل المهام. تم بناء MCP-Bench على بروتوكول السياق النموذجي (MCP)، حيث يربط النماذج اللغوية الكبيرة بـ 28 خادمًا مباشرًا تمثيليًا لبروتوكول MCP، يغطي ما يقارب 250 أداة متعددة المجالات مثل المالية والسفر والحسابات العلمية والبحث الأكاديمي. على عكس المعايير القائمة على واجهات برمجة التطبيقات (API) السابقة، فإن كل خادم MCP يقدم مجموعة من الأدوات المكملة المصممة للعمل معًا، مما يمكّن من بناء مهام متعددة الخطوات واقعية وغنية بالربط بين المدخلات والمخرجات. تختبر مهام MCP-Bench قدرة الوكلاء على استرجاع الأدوات ذات الصلة من تعليمات غامضة دون ذكر أسماء أدوات صريحة، والتخطيط لمسارات تنفيذ متعددة الخطوات لتحقيق أهداف معقدة، وربط الاستجابات بنتائج الأدوات المتوسطة، وتنظيم سير العمل عبر مجالات متعددة — مهارات لم تُقاس بشكل كافٍ في المعايير الحالية التي تعتمد على مواصفات أدوات صريحة، وسير عمل محدود الخطوات، وعمليات معزولة في مجالات منفصلة. نقترح إطارًا تقييميًا متعدد الأوجه يغطي فهم و استخدام النماذج على مستوى الأداة، والتخطيط على مستوى المسار، ونهاية إنجاز المهمة. أظهرت التجارب على 20 نموذجًا لغويًا كبيرًا متقدمًا تحديات مستمرة في معيار MCP-Bench. الكود والبيانات: https://github.com/Accenture/mcp-bench.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.