بيانات EVA-Bench 2.0
أعلن فريق ServiceNow-AI عن إطلاق النسخة الثانية من إطار عمل EVA-Bench، وهو معيار مفتوح المصدر مخصص لتقييم أداء وكلاء الذكاء الاصطناعي الصوتية في البيئات المؤسسية. يأتي هذا الإصدار بتوسع جوهري يغطي ثلاثة قطاعات رئيسية تشمل خدمة عملاء الخطوط الجوية، وإدارة خدمات تكنولوجيا المعلومات، وتسليم خدمات الموارد البشرية الطبية. ويضم المعيار الجديد 213 سيناريو تفاعلياً يمتد على 121 أداة برمجية، مما يمثل زيادة كبيرة في التغطية مقارنة بالإصدار الأول. يراعي تصميم EVA-Bench 2.0 خمسة محاور تقنية لضمان الدقة. يركز المعيار على المهام الهاتفية الفعلية، ويحاكي واجهات برمجة التطبيقات وسياقات عمل حقيقية تشمل القيود الصحية وقواعد التحقق من الهوية. كما يغطي سيناريوهات المكالمات الفردية والمتعددة النوايا، بما في ذلك المحاولات المتعمدة لتجاوز إجراءات الأمان أو الوصول غير المصرح به. يضمن كل سيناريو مسار حل وحيد وقابل للتكرار تماماً، مما يلغي الغموض في قياس الفجوات الأدائية بين النماذج. اعتمد المطورون آلية توليد بيانات مشتركة تعتمد على نظام SyGra ونموذج GPT-5.4 لدمج هدف المستخدم، وحالة قاعدة البيانات الأولية، والنتيجة المتوقعة في حزمة واحدة متجانسة، مما يمنع التناقضات الخفية. خضع جميع السيناريوهات لمراحل متعددة من التدقيق البشري والتحقق التجريبي عبر نماذج رائدة مثل Gemini 3.1 Pro وClaude Opus 4.6، مع استبعاد الحالات ذات السياسات الغامضة أو التنفيذ المعيب. يستعد المعيار الآن لتوسيع نطاقه لدعم التقييم متعدد اللغات، حيث يتم تكييف بيانات المحاكاة وآليات الحكم لتناسب السياقات الثقافية واللغوية المختلفة بدقة. تتوفر جميع مجموعات البيانات وأطر التقييم وكود التشغيل على HuggingFace وGitHub تحت رخصة MIT، مما يسهل على الباحثين والمطورين دمج المعيار في خطوط الإنتاج، ويدعم تطور أنظمة الوكلاء الصوتيين المؤسسيين بمقاييس موثوقة وقابلة للمقارنة عالمياً.
