HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات التدريب المسبق للرياضيات Nemotron-CC-Math

التاريخ

منذ 2 أشهر

المؤسسة

جامعة بوسطن
إنفيديا

رابط الورقة البحثية

2508.15096

الترخيص

أخرى

انضم إلى مجتمع Discord

Nemotron-CC-Math هي مجموعة بيانات تدريب مسبق عالية الجودة وواسعة النطاق تركز على الرياضيات، أصدرتها NVIDIA وجامعة بوسطن في عام 2025. نتائج الورقة ذات الصلة هي "Nemotron-CC-Math: مجموعة بيانات تدريب رياضيات أولية عالية الجودة بمقياس 133 مليار رمز"، يهدف إلى الحفاظ على المحتوى الرياضي والبرمجي عالي القيمة وعرضه، وبالتالي قيادة الموجة التالية من نماذج اللغة الذكية القادرة عالميًا.

بُنيت مجموعة البيانات هذه، التي تحتوي على 133 مليار رمز، من Common Crawl باستخدام خط أنابيب استخراج وتطبيع قائم على NVIDIA Lynx وبرنامج LLM خفيف الوزن. مع الحفاظ على بنية المعادلات والرموز، تم توحيد المحتوى الرياضي بتنسيق LaTeX قابل للتعديل. يمثل هذا أول تغطية موثوقة لتنسيقات رياضية متنوعة (بما في ذلك طويلة الذيل) على نطاق الويب؛ وقد تم التحقق من مزاياه في العديد من معايير التقييم.

عملية بناء مجموعة البيانات

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp