الملخص

يُعزز التدريب المسبق لنموذجات اللغة الكبيرة (LLMs) على بيانات عالية الجودة ومنظمة، مثل الرياضيات والكود البرمجي، بشكل كبير من قدرات الاستدلال. ومع ذلك، تعاني المجموعات البيانات الحالية المُركّزة على الرياضيات، التي تم بناؤها من بيانات Common Crawl، من انخفاض في الجودة بسبب خوارزميات استخلاص هشة، وتحويل HTML إلى نص غير مُحافظ على المعلومات، وعدم القدرة على الحفاظ بشكل موثوق على البنية الرياضية. في هذه الدراسة، نقدّم Nemotron-CC-Math، وهي مجموعة بيانات رياضية كبيرة وعالية الجودة تم بناؤها من بيانات Common Crawl باستخدام خط أنابيب جديد، لا يعتمد على مجال معين، وتم تصميمه خصيصًا لاستخراج النصوص العلمية بموثوقية.

على عكس الجهود السابقة، يسترجع خط أنابيبنا المعالجة الرياضية عبر مختلف التنسيقات (مثل MathJax وKaTeX وMathML) من خلال استخدام عرض مرئي يراعي التخطيط (layout-aware rendering) باستخدام الأداة lynx، بالإضافة إلى مرحلة تنظيف مخصصة تعتمد على نموذج لغة كبير (LLM). يُحافظ هذا النهج على السلامة الهيكلية للمعادلات وأكواد الكتل، مع إزالة المحتوى المتكرر (boilerplate)، وتوحيد الترميز إلى الصيغة LaTeX، وإصلاح التناقضات.

قمنا بجمع مجموعة بيانات رياضية كبيرة وعالية الجودة، تُعرف باسم Nemotron-CC-Math-3+ (133 مليار رمز) وNemotron-CC-Math-4+ (52 مليار رمز). ويُذكر أن Nemotron-CC-Math-4+ لا يتفوق على جميع مجموعات البيانات المفتوحة السابقة في مجال الرياضيات—including MegaMath وFineMath وOpenWebMath—بل يحتوي أيضًا على 5.5 أضعاف عدد الرموز الموجودة في FineMath-4+، التي كانت حتى الآن أعلى مجموعة بيانات مُعدّة للتدريب المسبق في مجال الرياضيات من حيث الجودة. عند استخدام هذه المجموعة لتدريب نموذج Nemotron-T بحجم 8 مليار معامل، تُظهر النتائج مكاسب تتراوح بين +4.8 إلى +12.6 على معيار MATH، و+4.6 إلى +14.3 على معيار MBPP+ مقارنةً بالأسس القوية، كما تُحسّن الأداء العام في مجالات متنوعة على معياري MMLU وMMLU-Stem.

نقدّم أول خط أنابيب يُمكنه استخراج المحتوى العلمي — بما في ذلك الرياضيات — من بيانات ويبية ضخمة ومشوّشة بموثوقية، مما يُحقّق تحسينات قابلة للقياس في مجالات الرياضيات والكود والتفكير العام، ويُشكّل حالة جديدة من التميز بين مجموعات البيانات المفتوحة المُعدّة للتدريب المسبق في مجال الرياضيات. ولدعم الجهود المفتوحة المصدر، نُطلق كودنا وبياناتنا معًا.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

Nemotron-CC-Math: مجموعة بيانات تدريب مسبق عالية الجودة للرياضيات بحجم 133 تريليون رمز

Rabeeh Karimi Mahabadi Sanjeev Satheesh Shrimai Prabhumoye Mostofa Patwary Mohammad Shoeybi Bryan Catanzaro

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Nemotron-CC-Math: مجموعة بيانات تدريب مسبق عالية الجودة للرياضيات بحجم 133 تريليون رمز

Rabeeh Karimi Mahabadi Sanjeev Satheesh Shrimai Prabhumoye Mostofa Patwary Mohammad Shoeybi Bryan Catanzaro

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Nemotron-CC-Math: مجموعة بيانات تدريب مسبق عالية الجودة للرياضيات بحجم 133 تريليون رمز

Rabeeh Karimi Mahabadi Sanjeev Satheesh Shrimai Prabhumoye Mostofa Patwary Mohammad Shoeybi Bryan Catanzaro

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters