HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات معيارية للتقييم الكامل UNO-Bench

التاريخ

منذ 6 أيام

المؤسسة

رابط الورقة البحثية

2510.18915

الترخيص

MIT

UNO-Bench هو أول معيار تقييم موحد كامل النموذج يصدره فريق LongCat التابع لشركة Meituan في عام 2025. عنوان الورقة البحثية ذات الصلة هو "UNO-Bench: معيار موحد لاستكشاف قانون التكوين بين أحادي النمط ومتعدد الأنماط في النماذج متعددة الأنماطالهدف هو تقييم قدرات الفهم أحادية النمط ومتعددة الأنماط بكفاءة.

تحتوي هذه المجموعة من البيانات على 1250 عينة كاملة الأنماط مع قابلية حل متعددة الأنماط وفقًا لمعيار 98%، و2480 عينة أحادية النمط، تغطي 44 نوعًا من المهام و5 مجموعات من الأنماط. تتضمن المجموعة أيضًا نموذجًا عامًا للتقييم يدعم التقييم الآلي لستة أنواع من الأسئلة، مما يوفر معيار تقييم موحدًا للمهام متعددة الأنماط. صُممت العينات كاملة الأنماط بعناية من قِبل بشر لتشبه التطبيقات العملية إلى حد كبير، وهي مناسبة بشكل خاص للسياق الصيني؛ وتُكمل العينات أحادية النمط الأبعاد المعرفية والقدرية الأساسية، مما يجعل التقييم الشامل أكثر شمولًا.

هياكل البيانات:

يتم تخزين البيانات بتنسيق Parquet، وتحتوي كل عينة على حقول منظمة:

  • qid (معرف العينة)، subset_name (اسم المجموعة الفرعية)؛
  • السؤال (السؤال النصي) والإجابة (الإجابة القياسية)؛
  • الصور / الصوت / الفيديو (المحتوى متعدد الوسائط، يتم تخزين مسارات الملفات كقاموس، ولا شيء إذا لم يكن موجودًا)؛
  • المهمة (44 فئة مهمة)، القدرة (نوع القدرة)، المصدر (مصدر البيانات)، نوع النتيجة (طريقة التسجيل).
مثال لمجموعة البيانات

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp