HyperAI
منذ 6 أيام

إنشاء أفضل الممارسات لبناء مقاييس وكالة دقيقة

Yuxuan Zhu, Tengjun Jin, Yada Pruksachatkun, Andy Zhang, Shu Liu, Sasha Cui, Sayash Kapoor, Shayne Longpreet al
إنشاء أفضل الممارسات لبناء مقاييس وكالة دقيقة
الملخص

المعياريات ضرورية لتتبع التقدم الكمي في الذكاء الاصطناعي. مع زيادة قدرات الوكلاء الذكيين، قام الباحثون والممارسون بتقديم معياريات وكيلة لتقدير أداء الوكلاء في المهام المعقدة والواقعية. عادةً ما تقيس هذه المعياريات قدرات الوكلاء من خلال تقييم نتائج المهام عبر تصاميم مكافآت محددة. ومع ذلك، نوضح أن العديد من المعياريات الوكيلة تعاني من مشاكل في إعداد المهمة أو تصميم المكافأة. على سبيل المثال، يستخدم SWE-bench Verified حالات اختبار غير كافية، بينما يعتبر TAU-bench الردود الفارغة ناجحة. يمكن أن تؤدي مثل هذه المشاكل إلى تقدير أقل أو أكثر لأداء الوكلاء بنسبة تصل إلى 100% بشكل نسبي. لجعل تقييم الأداء الوكيلي دقيقًا، نقدم قائمة مراجعة المعيارية الوكيلية (ABC)، وهي مجموعة من الإرشادات التي تم تركيبها من خبرتنا في بناء المعياريات، استطلاع للأساليب الأمثل، والمشكلات التي تم الإبلاغ عنها سابقًا. عند تطبيقها على CVE-Bench، وهو معيار يحتوي على تصميم تقييم معقد بشكل خاص، فإن قائمة مراجعة ABC تقلل من تقدير الأداء الزائد بنسبة 33%.