HyperAI

مجموعة بيانات الاستدلال متعدد المجالات التي تم التحقق منها بواسطة WebInstruct

التاريخ

منذ 4 أيام

المؤسسة

رابط النشر

huggingface.co

الترخيص

Apache 2.0

مساعدة التنزيل

WebInstruct-verified هي مجموعة بيانات استدلالية متعددة المجالات تم إصدارها بشكل مشترك من قبل جامعة واترلو ومعهد Vector في عام 2025. نتائج الورقة ذات الصلة هي "المنطق العام: تطوير التفكير في ماجستير القانون في جميع المجالات"، والذي يهدف إلى تعزيز قدرة التفكير لدى طلاب الماجستير في القانون في مجالات متنوعة مع الحفاظ على نقاط قوتهم في الرياضيات.

تحتوي هذه المجموعة على ما يقارب 230,000 سؤال استدلالي، تغطي صيغًا متنوعة للإجابات، بما في ذلك أسئلة الاختيار من متعدد وتوزيع متوازن لمجموعات بيانات التعبيرات العددية. تغطي هذه المجموعة بشكل أساسي تخصصات مثل الرياضيات والفيزياء والكيمياء والمالية، بالإضافة إلى مختلف العلوم الإنسانية والاجتماعية الأخرى.

خصائص مجموعة البيانات:

  • التدريب على التعلم التعزيزي صفر: التعلم التعزيزي المباشر من مستوى الماجستير في القانون الأساسي، متجاوزًا مرحلة الإشراف المتوسطة.
  • بيانات منطقية متنوعة: أكثر من 230 ألف سؤال عالي الجودة وقابل للتحقق تم الحصول عليها من الويب، وتم تصفيتها للتحقق من إمكانية التحقق من الإجابة عبر التخصصات.
  • المُتحقق القائم على النموذج: نموذج مُتحقق توليدي مضغوط بحجم 1.5 مليار للتحقق من إجابة السلسلة الفكرية مع مراعاة السياق، والذي يتفوق على الأساليب التقليدية القائمة على القواعد.
توزيع حقل مجموعة البيانات