HyperAI

مجموعة نصوص MathPile المُدرَّبة مسبقًا للاستدلال الرياضي

التاريخ

منذ عام واحد

المؤسسة

جامعة شنغهاي جياو تونغ

رابط النشر

huggingface.co

الترخيص

其他

مساعدة التنزيل

MathPile عبارة عن مجموعة متنوعة وعالية الجودة من البيانات التي تركز على الرياضيات وتحتوي على ما يقرب من 9.5 مليار رمز. تختلف هذه المجموعة من البيانات بشكل كبير عن مجموعات البيانات السابقة في الخصائص التالية:

  • مُركّز على الرياضيات:تركز MathPile على خدمة مجال الرياضيات، على عكس تلك المجموعات التي تركز على مجالات عامة مثل Pile وRedPajama، أو تلك التي تركز على لغات متعددة مثل ROOTS وThe Stack. على الرغم من وجود مجموعات بيانات تركز على الرياضيات، إلا أنها إما مغلقة المصدر، مثل Minerva من Google وMathMix من OpenAI، أو تفتقر إلى التنوع، مثل ProofPile وOpenWebMath.
  • تنوع:يجمع موقع MathPile البيانات من مجموعة واسعة من المصادر:الكتب المدرسية (بما في ذلك ملاحظات المحاضرات)، وarXiv، وWikipedia، وProofWiki، وStackExchange، وصفحات الويب.يحتوي على محتوى رياضيات مناسب لمراحل K-12، والكلية، ومستوى الدراسات العليا، ومسابقات الرياضيات.وعلى وجه الخصوص، أصدر فريق البحث مجموعة كبيرة من الكتب المدرسية عالية الجودة (حوالي 0.19 مليار رمز).
  • جودة عالية:يلتزم فريق البحث بمبدأ القليل هو الكثير ويؤمن إيمانا راسخا بتفوق جودة البيانات على الكمية، حتى في مرحلة ما قبل التدريب. وشملت جهود فريق البحث الدقيقة في جمع البيانات ومعالجتها مجموعة متطورة من عمليات المعالجة المسبقة والفحص المسبق والتنظيف والتصفية وإزالة التكرار، مما يضمن الجودة العالية لمجموعة بيانات فريق البحث.
  • توثيق البيانات:لتعزيز الشفافية، قام فريق البحث بتوثيق MathPile على نطاق واسع. ويتضمن ذلك جدول مجموعة البيانات (انظر الجدول 5 في الورقة) وتعليقات الجودة لملفات مصدر الويب، مثل درجات تحديد اللغة ونسبة الرمز إلى الكلمة. يتيح هذا للمستخدمين المرونة اللازمة لتخصيص البيانات وفقًا لاحتياجاتهم.كما أجرى فريق البحث أيضًا اكتشاف تلوث البيانات لإزالة النسخ المكررة من مجموعات اختبار المعايير مثل MATH و MMLU-STEM.