HyperAI

مجموعة بيانات فهم المهام المتعددة واسعة النطاق MMLU-Pro

التاريخ

منذ 8 أشهر

الحجم

3.48 MB

رابط النشر

github.com

* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.

مجموعة بيانات MMLU-Pro عبارة عن مجموعة بيانات فهم متعددة المهام واسعة النطاق أكثر قوة وتحديًا، مصممة لقياس قدرات نماذج اللغة الكبيرة بشكل أكثر صرامة. تحتوي مجموعة البيانات على 12 ألف سؤال معقد في مختلف التخصصات. تم إصدار هذه المجموعة من البيانات في عام 2024 من قبل باحثين من جامعة واترلو وجامعة تورنتو وجامعة كارنيجي ميلون. الورقة ذات الصلة بعنوان "MMLU-Pro: معيار فهم لغة متعددة المهام أكثر قوة وتحديًا".

  • الأسئلة والخيارات:يحتوي كل سؤال في مجموعة البيانات عادةً على 10 خيارات اختيار من متعدد، ولكن أثناء عملية المراجعة اليدوية، تم تقليص بعض الخيارات للتخلص من الخيارات غير المعقولة. كان لكل سؤال في الأصل 4 خيارات، والخيارات الإضافية تهدف إلى زيادة التعقيد والمتانة، الأمر الذي يتطلب تفكيرًا أعمق للعثور على الإجابة الصحيحة بين عدد كبير من المشتتات المحتملة.
  • مصدر:تجمع مجموعة البيانات هذه الأسئلة من مصادر متعددة:
    • السؤال الأصلي لـ MMLU:جزء من مجموعة البيانات يأتي من مجموعة بيانات MMLU الأصلية. لقد قمنا بإزالة الأسئلة التافهة والغامضة.
    • مواقع STEM:قم باختيار أسئلة STEM عالية الجودة بعناية من الإنترنت.
    • نظرية ضمان الجودة:مشاكل التوضيح البشري عالية الجودة التي تتطلب نظريات لحلها.
    • ساي بينش:أسئلة العلوم لامتحانات الجامعة.
  • تغطي البيانات المضافة حديثًا الموضوعات التالية:تتضمن الموضوعات المحسنة بالأسئلة من مواقع STEM وTheoremQA وSciBench علم الأحياء والأعمال والكيمياء وعلوم الكمبيوتر والاقتصاد والهندسة والرياضيات والفيزياء وعلم النفس.

بالمقارنة مع MMLU الأصلية، هناك ثلاثة اختلافات رئيسية:

  • تحتوي مجموعة بيانات MMLU الأصلية على 4 خيارات فقط، ويزيدها MMLU-Pro إلى 10 خيارات. إن زيادة الخيارات من شأنها أن تجعل التقييم أكثر واقعية وتحديًا. التخمين العشوائي سيؤدي إلى الحصول على درجة أقل بكثير.
  • تحتوي مجموعة بيانات MMLU الأصلية بشكل أساسي على أسئلة تعتمد على المعرفة ولا تتطلب الكثير من التفكير. لذلك، تكون نتائج PPL عادةً أفضل من CoT. من خلال زيادة صعوبة الأسئلة ودمج المزيد من الأسئلة التي تركز على التفكير في MMLU-Pro، يمكن أن يكون CoT أعلى بمقدار 20% من CoT الخاص بـ PPL.
  • من خلال زيادة عدد المشتتات، يقلل MMLU-Pro بشكل كبير من احتمال التخمين الصحيح عن طريق الصدفة، وبالتالي تحسين متانة المعيار. على وجه التحديد، بعد اختبار 24 نمطًا مختلفًا من أنماط المطالبات، انخفضت حساسية درجات النموذج لتغيرات المطالبات من 4-5% في MMLU إلى 2% في MMLU-Pro.
MMLU-Pro.torrent
البذر 1التنزيل 1مكتمل 99إجمالي التنزيلات 311
  • MMLU-Pro/
    • README.md
      2.88 KB
    • README.txt
      5.75 KB
      • data/
        • MMLU-Pro.zip
          3.48 MB