Command Palette
Search for a command to run...
MCPMark: معيار لاختبار التحميل في الاستخدامات الواقعية والشاملة لـ MCP

الملخص
يُعدّ معيار MCP وسيلة موحدة لتنظيم تفاعل النماذج اللغوية الكبيرة (LLMs) مع الأنظمة الخارجية، مما يُشكّل الأساس لبناء الوكلاء العامين. ومع ذلك، لا تزال المعايير الحالية لـ MCP محدودة النطاق: فهي تركز على المهام التي تتطلب قراءة مكثفة أو مهام ذات تفاعل محدود العمق، ولا تُعكس بدقة التعقيد والواقعية للسيرورات العملية في العالم الحقيقي. ولسد هذه الفجوة، نقترح "MCPMark"، وهو معيار مُصمم لتقييم استخدام MCP بطريقة أكثر واقعية وشمولية. يتكون المعيار من 127 مهمة عالية الجودة تم إنشاؤها بالتعاون بين خبراء المجال ونماذج الذكاء الاصطناعي. تبدأ كل مهمة بحالة أولية مُختارة بعناية، وتتضمن نصًا برمجيًا للتحقق التلقائي. وتتطلب هذه المهام تفاعلاً أكثر غنىً وتنوعًا مع البيئة، وتشمل طيفًا واسعًا من العمليات الإنشائية والقراءة والتحديث والحذف (CRUD). قمنا بإجراء تقييم شامل للنماذج اللغوية الكبيرة الرائدة باستخدام إطار عمل وكيل بسيط يعمل في حلقة استدعاء الأدوات. أظهرت النتائج التجريبية أن أفضل نموذج أداءً، أي gpt-5-medium، حقق فقط 52.56% في مؤشر pass@1 و33.86% في مؤشر pass^4، بينما تراجعت نماذج قوية أخرى شهيرة، مثل claude-sonnet-4 و o3، عن 30% في مؤشر pass@1 و15% في مؤشر pass^4. وعلى المتوسط، تحتاج النماذج اللغوية الكبيرة إلى 16.2 عملية تنفيذ و17.4 استدعاء أداة لكل مهمة، وهو ما يفوق بكثير الأرقام المسجلة في المعايير السابقة لـ MCP، ما يُبرز الطبيعة المُرهقة لاختبار MCPMark.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.