HyperAIHyperAI

مجموعة بيانات أخذ العينات من مجموعة بيانات التدريب المسبق لـ Nemotron

التاريخ

منذ شهر واحد

الحجم

79.87 MB

المؤسسة

إنفيديا

رابط النشر

huggingface.co

رابط الورقة البحثية

2508.14444

الترخيص

其他

* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.

Nemotron-Pretraining-Dataset-sample هي نسخة مبسطة من مجموعة بيانات Nemotron pretraining التي أصدرتها NVIDIA في عام 2025. نتائج الورقة ذات الصلة هي "NVIDIA Nemotron Nano 2: نموذج استدلالي دقيق وفعال لمحول مامبا الهجين".

تحتوي مجموعة البيانات على 10 مجموعات فرعية تمثيلية تم اختيارها من مكونات مختلفة من مجموعة البيانات الكاملة SFT ومجموعة التدريب المسبق، والتي تغطي بيانات الإجابة على الأسئلة عالية الجودة، والمحتوى المستخرج الذي يركز على المجال الرياضي، وبيانات التعريف، وبيانات التعليمات على غرار SFT، وهي مناسبة للمراجعة والتجارب السريعة.

عينة مجموعة بيانات تدريب ما قبل نيموترون.torrent
البذر 1التنزيل 0مكتمل 11إجمالي التنزيلات 47
  • Nemotron-Pretraining-Dataset-sample/
    • README.md
      1.37 KB
    • README.txt
      2.73 KB
      • data/
        • Nemotron-Pretraining-Dataset-sample.zip
          79.87 MB
مجموعة بيانات أخذ العينات من مجموعة بيانات التدريب المسبق لـ Nemotron | مجموعات البيانات | HyperAI