Command Palette
Search for a command to run...
MCP-AgentBench: تقييم أداء الوكيل اللغوي في العالم الحقيقي باستخدام أدوات متوسطة بواسطة MCP
Zikang Guo Benfeng Xu Chiwei Zhu Wentao Hong Xiaorui Wang Zhendong Mao

الملخص
protocol (MCP) يُعدّ معيارًا مفتوحًا رئيسيًا يُسجّل تطوّرًا سريعًا، مُصممًا لتعزيز دمج الوكالات مع الأدوات وتحقيق التوافق بينها، ويُعدّ مُمكّنًا لعصر جديد من الذكاء الاصطناعي الوكلي القوي، المترابط، والفعّال فعليًا. ومع ذلك، وعلى الرغم من الانتشار المتنامِي لـMCP، فإن المعايير الحالية غالبًا ما تفشل في التقاط أداء الوكالات في العالم الحقيقي ضمن هذا النموذج الجديد، ما يؤدي إلى تحيّز في تقييم القيمة التشغيلية الحقيقية للوكلاء، وصعوبة في التمييز الموثوق بين مستويات الكفاءة. لسدّ هذه الفجوة الحاسمة في التقييم، نقدّم "MCP-AgentBench" – معيارًا شاملاً مُصممًا خصيصًا لتقييم دقيق لقدرات الوكالات اللغوية في التفاعلات المُتَوَسَّطة عبر MCP. وتشمل المساهمات الأساسية لـMCP-AgentBench: إنشاء بيئة اختبار مُحكمة تتألف من 33 خادمًا يعملًا يضمّ 188 أداة متميزة؛ وتطوير معيار يحتوي على 600 سؤال مُصممًا بشكل منهجي وموزّع على 6 فئات مختلفة من التفاعلات بمستويات متفاوتة من التعقيد؛ وتقديم "MCP-Eval"، منهجية تقييم جديدة مُستندة إلى النتائج، تُولّي الأولوية لنجاح المهام في السياق الحقيقي. من خلال تقييم تجريبي واسع النطاق للوكلاء اللغويين الرائدين، نقدّم رؤى أساسية. يهدف MCP-AgentBench إلى تزويد المجتمع البحثي بإطار معياري وموثوق لبناء وتأكيدها وتطوير وكالات قادرة على الاستفادة الكاملة من المزايا التحويلية لـMCP، وبالتالي تسريع التقدّم نحو أنظمة ذكاء اصطناعي حقيقية القدرة وقابلة للتوافق.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.