@article{ye2026claw, title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents}, author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others}, journal={arXiv preprint arXiv:2604.06132}, year={2026} }

استخدم مجموعة البيانات هذه ناقش على Discord

التاريخ

منذ شهر واحد

المؤسسة

رابط الورقة البحثية

2604.06132

الترخيص

MIT

الوسوم

متعدد الوسائط

المعايير

إيجرنت

Claw-Eval هي مجموعة بيانات مرجعية شفافة وشاملة لتقييم وكلاء الذكاء الاصطناعي في مهام واقعية، وقد أصدرتها جامعة بكين بالتعاون مع جامعة هونغ كونغ عام 2026. وفيما يلي الأبحاث ذات الصلة: كلاو-إيفال: نحو تقييم موثوق للوكلاء المستقلينيهدف هذا البحث إلى تقييم قدرة الأنظمة الذكية المستقلة على أداء المهام، واستخدام الأدوات، وفهم الظواهر متعددة الوسائط، والتفاعل في بيئات العالم الحقيقي. ويُستخدم على نطاق واسع في تقييم أنظمة الوكلاء، وتنفيذ المهام المؤتمتة، وبحوث الأنظمة الذكية متعددة الوسائط، وتحليل قدرات النماذج الكبيرة. تدعم مجموعة البيانات هذه اللغتين الإنجليزية والصينية وتتضمن ثلاث مجموعات مهام أساسية: عامة، ومتعددة الوسائط، ومتعددة الأدوار، وتغطي ما مجموعه 24 فئة من فئات المهام مثل الاتصالات، والمالية، والمكاتب، وأدوات الإنتاجية.

تكوين مجموعة البيانات:

عام: يحتوي على 161 مهمة أساسية للوكيل، تغطي 24 فئة تشمل الاتصالات والمالية والعمليات وإنتاجية المكتب.
متعدد الوسائط: يتضمن 101 مهمة وكيل متعدد الوسائط، تغطي سيناريوهات مثل إنشاء صفحات الويب، والإجابة على أسئلة الفيديو، واستخراج معلومات المستندات.
حوار متعدد الأدوار: يحتوي هذا القسم على 38 مهمة حوار متعددة الأدوار، تتطلب من الوكيل التفاعل مع المستخدمين المحاكين في جولات متعددة لتوضيح الاحتياجات وتوليد الاقتراحات.

حقول البيانات:

task_id: مُعرّف فريد للمهمة
استفسار: تعليمات المهمة أو وصف المهمة
قائمة الملفات المساعدة المطلوبة للمهمة
اللغة: لغة المهمة
الفئة: المجال أو الفئة التي تنتمي إليها المهمة

الاستشهاد

@article{ye2026claw,
title={Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents},
author={Ye, Bowen and Li, Rang and Yang, Qibin and Liu, Yuanxin and Yao, Linli and Lv, Hanglong and Xie, Zhihui and An, Chenxin and Li, Lei and Kong, Lingpeng and others},
journal={arXiv preprint arXiv:2604.06132},
year={2026}
}

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

مجموعة بيانات مرجعية لفهم تغيرات المناطق عن بعد من مركز أبحاث الاستشعار عن بعد (RSRCC)

منذ شهر واحد

مجموعة بيانات PanScale للاستشعار عن بعد لتحسين وضوح الألوان

منذ 2 أشهر

مجموعة بيانات تقييم قدرة تحليل المستندات في ParseBench

منذ 2 أشهر

مجموعة بيانات مضغوطة في ذاكرة سياق OpenMementos

منذ 2 أشهر

مجموعة بيانات MIA للاستدلال متعدد الخطوات ومسار القرار

منذ 2 أشهر

مجموعة بيانات تقييم قدرة تحليل الوسائط المتعددة OmniParsingBench

منذ 2 أشهر

مجموعة بيانات MDPBench المعيارية لتحليل المستندات متعددة اللغات

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

استخدم مجموعة البيانات هذه ناقش على Discord

التاريخ

منذ شهر واحد

المؤسسة

رابط الورقة البحثية

2604.06132

الترخيص

MIT

الوسوم

متعدد الوسائط

المعايير

إيجرنت