HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات معيارية للتقييم الكامل UNO-Bench

Date

منذ 2 أشهر

Size

9.71 GB

Organization

ميتوان

Paper URL

2510.18915

License

MIT

UNO-Bench هو أول معيار تقييم موحد كامل النموذج يصدره فريق LongCat التابع لشركة Meituan في عام 2025. عنوان الورقة البحثية ذات الصلة هو "UNO-Bench: معيار موحد لاستكشاف قانون التكوين بين أحادي النمط ومتعدد الأنماط في النماذج متعددة الأنماطالهدف هو تقييم قدرات الفهم أحادية النمط ومتعددة الأنماط بكفاءة.

تحتوي هذه المجموعة من البيانات على 1250 عينة كاملة الأنماط مع قابلية حل متعددة الأنماط وفقًا لمعيار 98%، و2480 عينة أحادية النمط، تغطي 44 نوعًا من المهام و5 مجموعات من الأنماط. تتضمن المجموعة أيضًا نموذجًا عامًا للتقييم يدعم التقييم الآلي لستة أنواع من الأسئلة، مما يوفر معيار تقييم موحدًا للمهام متعددة الأنماط. صُممت العينات كاملة الأنماط بعناية من قِبل بشر لتشبه التطبيقات العملية إلى حد كبير، وهي مناسبة بشكل خاص للسياق الصيني؛ وتُكمل العينات أحادية النمط الأبعاد المعرفية والقدرية الأساسية، مما يجعل التقييم الشامل أكثر شمولًا.

هياكل البيانات:

يتم تخزين البيانات بتنسيق Parquet، وتحتوي كل عينة على حقول منظمة:

  • qid (معرف العينة)، subset_name (اسم المجموعة الفرعية)؛
  • السؤال (السؤال النصي) والإجابة (الإجابة القياسية)؛
  • الصور / الصوت / الفيديو (المحتوى متعدد الوسائط، يتم تخزين مسارات الملفات كقاموس، ولا شيء إذا لم يكن موجودًا)؛
  • المهمة (44 فئة مهمة)، القدرة (نوع القدرة)، المصدر (مصدر البيانات)، نوع النتيجة (طريقة التسجيل).
مثال لمجموعة البيانات
UNO-Bench.torrent
Seeding 1Downloading 0Completed 1Total Downloads 49
  • UNO-Bench/
    • README.md
      1.97 KB
    • README.txt
      3.93 KB
      • data/
        • UNO-Bench.zip
          9.71 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp