معيار UserBench
تم اقتراح UserBench بشكل مشترك من قبل فريق Salesforce AI Research وجامعة إلينوي في أوربانا شامبين في يوليو 2025، وتم نشر نتائج البحث ذات الصلة في الورقة "UserBench: بيئة صالة ألعاب رياضية تفاعلية للوكلاء الموجهين نحو المستخدم".
UserBench هو معيار مُركّز على المستخدم، مُصمّم لتقييم أداء الوكلاء في تفاعلات متعددة الأدوار قائمة على التفضيلات. في UserBench، يُقدّم المستخدمون المُحاكيون تعليمات أولية غامضة للمهام، تكشف تدريجيًا عن التفضيلات بمرور الوقت، وغالبًا ما تكون ضمنية. يجب على الوكلاء توضيح أهدافهم بشكل استباقي، وتفسير الإشارات الدقيقة، والنجاح من خلال أدوات التفكير التكيفي. بُني UserBench على إطار عمل Gymnasium القياسي، وهو يُقدّم إعدادًا معياريًا وقابلًا للتطوير مع واجهات تفاعلية موحدة وواجهة خلفية مستقرة لاستخدام الأدوات، مما يُتيح تقييمًا دقيقًا وقابلًا للتكرار.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.