HyperAIHyperAI

Command Palette

Search for a command to run...

إنشاء أفضل الممارسات لبناء مقاييس وكالة دقيقة

Yuxuan Zhu Tengjun Jin Yada Pruksachatkun Andy Zhang Shu Liu Sasha Cui Sayash Kapoor Shayne Longpreet al

الملخص

المعياريات ضرورية لتتبع التقدم الكمي في الذكاء الاصطناعي. مع زيادة قدرات الوكلاء الذكيين، قام الباحثون والممارسون بتقديم معياريات وكيلة لتقدير أداء الوكلاء في المهام المعقدة والواقعية. عادةً ما تقيس هذه المعياريات قدرات الوكلاء من خلال تقييم نتائج المهام عبر تصاميم مكافآت محددة. ومع ذلك، نوضح أن العديد من المعياريات الوكيلة تعاني من مشاكل في إعداد المهمة أو تصميم المكافأة. على سبيل المثال، يستخدم SWE-bench Verified حالات اختبار غير كافية، بينما يعتبر TAU-bench الردود الفارغة ناجحة. يمكن أن تؤدي مثل هذه المشاكل إلى تقدير أقل أو أكثر لأداء الوكلاء بنسبة تصل إلى 100% بشكل نسبي. لجعل تقييم الأداء الوكيلي دقيقًا، نقدم قائمة مراجعة المعيارية الوكيلية (ABC)، وهي مجموعة من الإرشادات التي تم تركيبها من خبرتنا في بناء المعياريات، استطلاع للأساليب الأمثل، والمشكلات التي تم الإبلاغ عنها سابقًا. عند تطبيقها على CVE-Bench، وهو معيار يحتوي على تصميم تقييم معقد بشكل خاص، فإن قائمة مراجعة ABC تقلل من تقدير الأداء الزائد بنسبة 33%.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إنشاء أفضل الممارسات لبناء مقاييس وكالة دقيقة | مستندات | HyperAI