مجموعة بيانات معايير تقييم مجالات الموضوع SuperGPQA
التاريخ
منذ 2 أشهر
رابط النشر
الترخيص
Apache 2.0
SuperGPQA عبارة عن مجموعة بيانات معيارية لتقييم أداء أنظمة الإجابة على الأسئلة المتقدمة. تم تطويره من قبل فريق عرض الفن المتعدد الوسائط في عام 2025. نتائج الورقة ذات الصلة هي "SuperGPQA: توسيع نطاق تقييم ماجستير القانون عبر 285 تخصصًا للدراسات العليا"تركز مجموعة البيانات هذه على مجال معالجة اللغة الطبيعية وتقييم التعلم الآلي، وتهدف إلى اختبار قدرة النموذج على التفكير ومستوى المعرفة من خلال مشاكل معقدة متعددة التخصصات.
تغطي مجموعة البيانات 285 مجالًا دراسيًا على مستوى الدراسات العليا مع أنواع مختلفة من الأسئلة، بما في ذلك علم الأحياء والفيزياء والكيمياء وغيرها من المجالات العلمية.