HyperAIHyperAI

Command Palette

Search for a command to run...

معيار UserBench

Date

منذ 2 أشهر

Organization

Paper URL

2507.22034

تم اقتراح UserBench بشكل مشترك من قبل فريق Salesforce AI Research وجامعة إلينوي في أوربانا شامبين في يوليو 2025، وتم نشر نتائج البحث ذات الصلة في الورقة "UserBench: بيئة صالة ألعاب رياضية تفاعلية للوكلاء الموجهين نحو المستخدم".

UserBench هو معيار مُركّز على المستخدم، مُصمّم لتقييم أداء الوكلاء في تفاعلات متعددة الأدوار قائمة على التفضيلات. في UserBench، يُقدّم المستخدمون المُحاكيون تعليمات أولية غامضة للمهام، تكشف تدريجيًا عن التفضيلات بمرور الوقت، وغالبًا ما تكون ضمنية. يجب على الوكلاء توضيح أهدافهم بشكل استباقي، وتفسير الإشارات الدقيقة، والنجاح من خلال أدوات التفكير التكيفي. بُني UserBench على إطار عمل Gymnasium القياسي، وهو يُقدّم إعدادًا معياريًا وقابلًا للتطوير مع واجهات تفاعلية موحدة وواجهة خلفية مستقرة لاستخدام الأدوات، مما يُتيح تقييمًا دقيقًا وقابلًا للتكرار.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp