HyperAIHyperAI
منذ 11 أيام

Nemotron-CC-Math: مجموعة بيانات تدريب مسبق عالية الجودة للرياضيات بحجم 133 تريليون رمز

Rabeeh Karimi Mahabadi, Sanjeev Satheesh, Shrimai Prabhumoye, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro
Nemotron-CC-Math: مجموعة بيانات تدريب مسبق عالية الجودة للرياضيات بحجم 133 تريليون رمز
الملخص

يُعزز التدريب المسبق لنموذجات اللغة الكبيرة (LLMs) على بيانات عالية الجودة ومنظمة، مثل الرياضيات والكود البرمجي، بشكل كبير من قدرات الاستدلال. ومع ذلك، تعاني المجموعات البيانات الحالية المُركّزة على الرياضيات، التي تم بناؤها من بيانات Common Crawl، من انخفاض في الجودة بسبب خوارزميات استخلاص هشة، وتحويل HTML إلى نص غير مُحافظ على المعلومات، وعدم القدرة على الحفاظ بشكل موثوق على البنية الرياضية. في هذه الدراسة، نقدّم Nemotron-CC-Math، وهي مجموعة بيانات رياضية كبيرة وعالية الجودة تم بناؤها من بيانات Common Crawl باستخدام خط أنابيب جديد، لا يعتمد على مجال معين، وتم تصميمه خصيصًا لاستخراج النصوص العلمية بموثوقية. على عكس الجهود السابقة، يسترجع خط أنابيبنا المعالجة الرياضية عبر مختلف التنسيقات (مثل MathJax وKaTeX وMathML) من خلال استخدام عرض مرئي يراعي التخطيط (layout-aware rendering) باستخدام الأداة lynx، بالإضافة إلى مرحلة تنظيف مخصصة تعتمد على نموذج لغة كبير (LLM). يُحافظ هذا النهج على السلامة الهيكلية للمعادلات وأكواد الكتل، مع إزالة المحتوى المتكرر (boilerplate)، وتوحيد الترميز إلى الصيغة LaTeX، وإصلاح التناقضات. قمنا بجمع مجموعة بيانات رياضية كبيرة وعالية الجودة، تُعرف باسم Nemotron-CC-Math-3+ (133 مليار رمز) وNemotron-CC-Math-4+ (52 مليار رمز). ويُذكر أن Nemotron-CC-Math-4+ لا يتفوق على جميع مجموعات البيانات المفتوحة السابقة في مجال الرياضيات—including MegaMath وFineMath وOpenWebMath—بل يحتوي أيضًا على 5.5 أضعاف عدد الرموز الموجودة في FineMath-4+، التي كانت حتى الآن أعلى مجموعة بيانات مُعدّة للتدريب المسبق في مجال الرياضيات من حيث الجودة. عند استخدام هذه المجموعة لتدريب نموذج Nemotron-T بحجم 8 مليار معامل، تُظهر النتائج مكاسب تتراوح بين +4.8 إلى +12.6 على معيار MATH، و+4.6 إلى +14.3 على معيار MBPP+ مقارنةً بالأسس القوية، كما تُحسّن الأداء العام في مجالات متنوعة على معياري MMLU وMMLU-Stem. نقدّم أول خط أنابيب يُمكنه استخراج المحتوى العلمي — بما في ذلك الرياضيات — من بيانات ويبية ضخمة ومشوّشة بموثوقية، مما يُحقّق تحسينات قابلة للقياس في مجالات الرياضيات والكود والتفكير العام، ويُشكّل حالة جديدة من التميز بين مجموعات البيانات المفتوحة المُعدّة للتدريب المسبق في مجال الرياضيات. ولدعم الجهود المفتوحة المصدر، نُطلق كودنا وبياناتنا معًا.