منذ 4 أشهر

الملخص

protocol (MCP) يُعدّ معيارًا مفتوحًا رئيسيًا يُسجّل تطوّرًا سريعًا، مُصممًا لتعزيز دمج الوكالات مع الأدوات وتحقيق التوافق بينها، ويُعدّ مُمكّنًا لعصر جديد من الذكاء الاصطناعي الوكلي القوي، المترابط، والفعّال فعليًا. ومع ذلك، وعلى الرغم من الانتشار المتنامِي لـMCP، فإن المعايير الحالية غالبًا ما تفشل في التقاط أداء الوكالات في العالم الحقيقي ضمن هذا النموذج الجديد، ما يؤدي إلى تحيّز في تقييم القيمة التشغيلية الحقيقية للوكلاء، وصعوبة في التمييز الموثوق بين مستويات الكفاءة. لسدّ هذه الفجوة الحاسمة في التقييم، نقدّم "MCP-AgentBench" – معيارًا شاملاً مُصممًا خصيصًا لتقييم دقيق لقدرات الوكالات اللغوية في التفاعلات المُتَوَسَّطة عبر MCP. وتشمل المساهمات الأساسية لـMCP-AgentBench: إنشاء بيئة اختبار مُحكمة تتألف من 33 خادمًا يعملًا يضمّ 188 أداة متميزة؛ وتطوير معيار يحتوي على 600 سؤال مُصممًا بشكل منهجي وموزّع على 6 فئات مختلفة من التفاعلات بمستويات متفاوتة من التعقيد؛ وتقديم "MCP-Eval"، منهجية تقييم جديدة مُستندة إلى النتائج، تُولّي الأولوية لنجاح المهام في السياق الحقيقي. من خلال تقييم تجريبي واسع النطاق للوكلاء اللغويين الرائدين، نقدّم رؤى أساسية. يهدف MCP-AgentBench إلى تزويد المجتمع البحثي بإطار معياري وموثوق لبناء وتأكيدها وتطوير وكالات قادرة على الاستفادة الكاملة من المزايا التحويلية لـMCP، وبالتالي تسريع التقدّم نحو أنظمة ذكاء اصطناعي حقيقية القدرة وقابلة للتوافق.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Zikang Guo Benfeng Xu Chiwei Zhu Wentao Hong Xiaorui Wang Zhendong Mao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zikang Guo Benfeng Xu Chiwei Zhu Wentao Hong Xiaorui Wang Zhendong Mao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zikang Guo Benfeng Xu Chiwei Zhu Wentao Hong Xiaorui Wang Zhendong Mao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MCP-AgentBench: تقييم أداء الوكيل اللغوي في العالم الحقيقي باستخدام أدوات متوسطة بواسطة MCP

Zikang Guo Benfeng Xu Chiwei Zhu Wentao Hong Xiaorui Wang Zhendong Mao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MCP-AgentBench: تقييم أداء الوكيل اللغوي في العالم الحقيقي باستخدام أدوات متوسطة بواسطة MCP

Zikang Guo Benfeng Xu Chiwei Zhu Wentao Hong Xiaorui Wang Zhendong Mao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MCP-AgentBench: تقييم أداء الوكيل اللغوي في العالم الحقيقي باستخدام أدوات متوسطة بواسطة MCP

Zikang Guo Benfeng Xu Chiwei Zhu Wentao Hong Xiaorui Wang Zhendong Mao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters