Command Palette
Search for a command to run...
Claw-Eval: نحو تقييم موثوق لـ Autonomous Agents
Claw-Eval: نحو تقييم موثوق لـ Autonomous Agents
الملخص
تتم عملية نشر Large language models بشكل متزايد بصفتها autonomous agents تقوم بتنفيذ workflows متعددة الخطوات في بيئات برمجية واقعية. ومع ذلك، تعاني الـ agent benchmarks الحالية من ثلاث محدوديات حرجة: (1) التقييم غامض المسار (trajectory-opaque grading) الذي يتحقق فقط من المخرجات النهائية، (2) عدم دقة مواصفات تقييم السلامة والـ robustness، و (3) ضيق نطاق التغطية للوسائط المتعددة (modality) ونماذج التفاعل.نقدم لكم Claw-Eval، وهو suite للتقييم الشامل (end-to-end) يعالج هذه الفجوات الثلاث. يتكون هذا النظام من 300 مهمة تم التحقق منها بشرياً، تغطي 9 فئات موزعة على ثلاث مجموعات (general service orchestration، و multimodal perception and generation، و multi-turn professional dialogue). يتم تسجيل كل action يقوم به الـ agent عبر ثلاث قنوات أدلة مستقلة (execution traces، و audit logs، و environment snapshots)، مما يتيح تقييماً واعياً بالمسار (trajectory-aware grading) عبر 2,159 بنداً دقيقاً في معايير التقييم (rubric items). ويقوم بروتوكول تسجيل النقاط بتقييم الـ Completion والـ Safety والـ Robustness، مع تقديم تقارير عن الـ Average Score، و Pass@k، و Pass^k عبر ثلاث تجارب للتمييز بين القدرات الحقيقية والنتائج الناتجة عن المصادفة.كشفت التجارب التي أُجريت على 14 من النماذج الرائدة (frontier models) عما يلي:(1) التقييم غامض المسار (trajectory-opaque evaluation) غير موثوق به بشكل منهجي، حيث يغفل عن 44% من انتهاكات السلامة و13% من إخفاقات الـ robustness التي تمكن الـ hybrid pipeline الخاص بنا من رصدها.(2) يؤدي حقن الأخطاء المحكوم (controlled error injection) بشكل أساسي إلى تدهور الاستمرارية (consistency) بدلاً من تدهور ذروة القدرة (peak capability)، حيث انخفض Pass^3 بنسبة تصل إلى 24% بينما ظل Pass@3 مستقراً.(3) يتباين الأداء متعدد الوسائط (multimodal performance) بشكل حاد، حيث تؤدي معظم النماذج أداءً أضعف في الفيديو مقارنة بالوثائق أو الصور، ولا يوجد نموذج واحد يهيمن على جميع الوسائط.بالإضافة إلى كونه benchmark، يسلط Claw-Eval الضوء على اتجاهات قابلة للتطبيق لتطوير الـ agents، مما يوضح المتطلبات اللازمة لبناء agents ليست قادرة فحسب، بل قابلة للنشر (deployable) بشكل موثوق.