Command Palette
Search for a command to run...
مجموعة بيانات Claw-Eval المعيارية في العالم الحقيقي
Claw-Eval هي مجموعة بيانات مرجعية شفافة وشاملة لتقييم وكلاء الذكاء الاصطناعي في مهام واقعية، وقد أصدرتها جامعة بكين بالتعاون مع جامعة هونغ كونغ عام 2026. وفيما يلي الأبحاث ذات الصلة: كلاو-إيفال: نحو تقييم موثوق للوكلاء المستقلينيهدف هذا البحث إلى تقييم قدرة الأنظمة الذكية المستقلة على أداء المهام، واستخدام الأدوات، وفهم الظواهر متعددة الوسائط، والتفاعل في بيئات العالم الحقيقي. ويُستخدم على نطاق واسع في تقييم أنظمة الوكلاء، وتنفيذ المهام المؤتمتة، وبحوث الأنظمة الذكية متعددة الوسائط، وتحليل قدرات النماذج الكبيرة. تدعم مجموعة البيانات هذه اللغتين الإنجليزية والصينية وتتضمن ثلاث مجموعات مهام أساسية: عامة، ومتعددة الوسائط، ومتعددة الأدوار، وتغطي ما مجموعه 24 فئة من فئات المهام مثل الاتصالات، والمالية، والمكاتب، وأدوات الإنتاجية.
تكوين مجموعة البيانات:
- عام: يحتوي على 161 مهمة أساسية للوكيل، تغطي 24 فئة تشمل الاتصالات والمالية والعمليات وإنتاجية المكتب.
- متعدد الوسائط: يتضمن 101 مهمة وكيل متعدد الوسائط، تغطي سيناريوهات مثل إنشاء صفحات الويب، والإجابة على أسئلة الفيديو، واستخراج معلومات المستندات.
- حوار متعدد الأدوار: يحتوي هذا القسم على 38 مهمة حوار متعددة الأدوار، تتطلب من الوكيل التفاعل مع المستخدمين المحاكين في جولات متعددة لتوضيح الاحتياجات وتوليد الاقتراحات.
حقول البيانات:
- task_id: مُعرّف فريد للمهمة
- استفسار: تعليمات المهمة أو وصف المهمة
- قائمة الملفات المساعدة المطلوبة للمهمة
- اللغة: لغة المهمة
- الفئة: المجال أو الفئة التي تنتمي إليها المهمة
الاستشهاد
@article{ye2026claw,
title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents},
author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others},
journal={arXiv preprint arXiv:2604.06132},
year={2026}
}
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.