HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 13 أيام

MCP-AgentBench: تقييم أداء الوكيل اللغوي في العالم الحقيقي باستخدام أدوات متوسطة بواسطة MCP

Zikang Guo Benfeng Xu Chiwei Zhu Wentao Hong Xiaorui Wang Zhendong Mao

MCP-AgentBench: تقييم أداء الوكيل اللغوي في العالم الحقيقي باستخدام أدوات متوسطة بواسطة MCP

الملخص

protocol (MCP) يُعدّ معيارًا مفتوحًا رئيسيًا يُسجّل تطوّرًا سريعًا، مُصممًا لتعزيز دمج الوكالات مع الأدوات وتحقيق التوافق بينها، ويُعدّ مُمكّنًا لعصر جديد من الذكاء الاصطناعي الوكلي القوي، المترابط، والفعّال فعليًا. ومع ذلك، وعلى الرغم من الانتشار المتنامِي لـMCP، فإن المعايير الحالية غالبًا ما تفشل في التقاط أداء الوكالات في العالم الحقيقي ضمن هذا النموذج الجديد، ما يؤدي إلى تحيّز في تقييم القيمة التشغيلية الحقيقية للوكلاء، وصعوبة في التمييز الموثوق بين مستويات الكفاءة. لسدّ هذه الفجوة الحاسمة في التقييم، نقدّم "MCP-AgentBench" – معيارًا شاملاً مُصممًا خصيصًا لتقييم دقيق لقدرات الوكالات اللغوية في التفاعلات المُتَوَسَّطة عبر MCP. وتشمل المساهمات الأساسية لـMCP-AgentBench: إنشاء بيئة اختبار مُحكمة تتألف من 33 خادمًا يعملًا يضمّ 188 أداة متميزة؛ وتطوير معيار يحتوي على 600 سؤال مُصممًا بشكل منهجي وموزّع على 6 فئات مختلفة من التفاعلات بمستويات متفاوتة من التعقيد؛ وتقديم "MCP-Eval"، منهجية تقييم جديدة مُستندة إلى النتائج، تُولّي الأولوية لنجاح المهام في السياق الحقيقي. من خلال تقييم تجريبي واسع النطاق للوكلاء اللغويين الرائدين، نقدّم رؤى أساسية. يهدف MCP-AgentBench إلى تزويد المجتمع البحثي بإطار معياري وموثوق لبناء وتأكيدها وتطوير وكالات قادرة على الاستفادة الكاملة من المزايا التحويلية لـMCP، وبالتالي تسريع التقدّم نحو أنظمة ذكاء اصطناعي حقيقية القدرة وقابلة للتوافق.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MCP-AgentBench: تقييم أداء الوكيل اللغوي في العالم الحقيقي باستخدام أدوات متوسطة بواسطة MCP | الأوراق البحثية | HyperAI