مجموعة بيانات معيارية للتقييم الكامل UNO-Bench
التاريخ
رابط الورقة البحثية
الترخيص
MIT
UNO-Bench هو أول معيار تقييم موحد كامل النموذج يصدره فريق LongCat التابع لشركة Meituan في عام 2025. عنوان الورقة البحثية ذات الصلة هو "UNO-Bench: معيار موحد لاستكشاف قانون التكوين بين أحادي النمط ومتعدد الأنماط في النماذج متعددة الأنماطالهدف هو تقييم قدرات الفهم أحادية النمط ومتعددة الأنماط بكفاءة.
تحتوي هذه المجموعة من البيانات على 1250 عينة كاملة الأنماط مع قابلية حل متعددة الأنماط وفقًا لمعيار 98%، و2480 عينة أحادية النمط، تغطي 44 نوعًا من المهام و5 مجموعات من الأنماط. تتضمن المجموعة أيضًا نموذجًا عامًا للتقييم يدعم التقييم الآلي لستة أنواع من الأسئلة، مما يوفر معيار تقييم موحدًا للمهام متعددة الأنماط. صُممت العينات كاملة الأنماط بعناية من قِبل بشر لتشبه التطبيقات العملية إلى حد كبير، وهي مناسبة بشكل خاص للسياق الصيني؛ وتُكمل العينات أحادية النمط الأبعاد المعرفية والقدرية الأساسية، مما يجعل التقييم الشامل أكثر شمولًا.
هياكل البيانات:
يتم تخزين البيانات بتنسيق Parquet، وتحتوي كل عينة على حقول منظمة:
- qid (معرف العينة)، subset_name (اسم المجموعة الفرعية)؛
- السؤال (السؤال النصي) والإجابة (الإجابة القياسية)؛
- الصور / الصوت / الفيديو (المحتوى متعدد الوسائط، يتم تخزين مسارات الملفات كقاموس، ولا شيء إذا لم يكن موجودًا)؛
- المهمة (44 فئة مهمة)، القدرة (نوع القدرة)، المصدر (مصدر البيانات)، نوع النتيجة (طريقة التسجيل).

بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.