@software{NemotronPostTrainingDatasetV2, author = {Nathawani, Dhruv and Ding, Shuoyang and Lavrukhin, Vitaly and Gitman, Igor and Majumdar, Somshubra and Bakhturina, Evelina and Ginsburg, Boris and Polak Scowcroft, Jane}, title = {{Nemotron-Post-Training-Dataset-v2}}, version = {2.0}, publisher = {{NVIDIA}}, year = {2025}, month = aug, url = {https://huggingface.co/datasets/nvidia/Nemotron-Post-Training-Dataset-v2} }

التاريخ

منذ 10 أشهر

الحجم

36.78 GB

المؤسسة

رابط الورقة البحثية

2508.14444

الترخيص

CC BY 4.0

الوسوم

مجموعة بيانات ما بعد التدريب Nemotron-Post-Training-Dataset-v2 هي نسخة أطلقتها NVIDIA عام 2025، وتستند إلى مجموعة بيانات ما بعد التدريب الحالية. تُوسّع هذه المجموعة بيانات SFT وRL لتشمل خمس لغات مستهدفة (الإسبانية/الفرنسية/الألمانية/الإيطالية/اليابانية)، وتغطي الرياضيات، والبرمجة، والعلوم والتكنولوجيا والهندسة والرياضيات (STEM)، والحوار، وغيرها من السيناريوهات، وتُستخدم لتحسين قدرات الاستدلال واتباع التعليمات في النموذج؛ كما توفر وظائف تصفية قائمة على البيانات الوصفية وأمثلة نموذجية لمجموعات فرعية. تخدم هذه المجموعة أبحاث الإصدار والتوافق لسلسلة Nemotron-Nano-9B-v2، وهي إحدى مجموعات بيانات ما بعد التدريب العامة، مما يُسهّل على المستخدمين إعادة إنتاج التجارب وتحسينها بشكل أكبر. نتائج البحث ذات الصلة هي:NVIDIA Nemotron Nano 2: نموذج استدلالي دقيق وفعال لمحول مامبا الهجين". عينات قابلة للفحصموزعةمع البيانات الوصفية:

تنزيل الفلتر: يدعم الفلترة السريعة والتنزيل حسب البيانات الوصفية مثل الفئة/اللغة/نموذج المصدر
الفئة والحجم (القيمة): الرياضيات (239,467)؛ الكود (175,000)؛ الجذع (355,000)؛ الدردشة (627,720)
تغطية متعددة اللغات: ja, de, it, es, fr
المصدر: تم تصنيعه من نماذج كبيرة متعددة (مثل DeepSeek-R1-0528، وسلسلة Qwen 2.5/3، وما إلى ذلك)
تنسيق الشرح: بعض العينات تقدم إجابتين: "الاستدلال أو إيقافه"؛ ويكون أثر الاستدلال باللغة الإنجليزية

الاستشهاد

@software{NemotronPostTrainingDatasetV2,
author = {Nathawani, Dhruv and Ding, Shuoyang and Lavrukhin, Vitaly and Gitman, Igor and Majumdar, Somshubra and Bakhturina, Evelina and Ginsburg, Boris and Polak Scowcroft, Jane},
title = {{Nemotron-Post-Training-Dataset-v2}},
version = {2.0},
publisher = {{NVIDIA}},
year = {2025}, month = aug,
url = {https://huggingface.co/datasets/nvidia/Nemotron-Post-Training-Dataset-v2}
}

Nemotron-Post-Training-Dataset-v2.torrent

البذر 1جارٍ التنزيل 0مكتمل 86إجمالي التنزيلات 162

Nemotron-Post-Training-Dataset-v2/
- README.md
  1.94 KB
- README.txt
  3.88 KB

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

استخدم مجموعة البيانات هذه

ناقش على Discord

التاريخ

منذ 10 أشهر

الحجم

36.78 GB

المؤسسة

رابط الورقة البحثية

2508.14444

الترخيص

CC BY 4.0

الوسوم

تنزيل الفلتر: يدعم الفلترة السريعة والتنزيل حسب البيانات الوصفية مثل الفئة/اللغة/نموذج المصدر
الفئة والحجم (القيمة): الرياضيات (239,467)؛ الكود (175,000)؛ الجذع (355,000)؛ الدردشة (627,720)
تغطية متعددة اللغات: ja, de, it, es, fr
المصدر: تم تصنيعه من نماذج كبيرة متعددة (مثل DeepSeek-R1-0528، وسلسلة Qwen 2.5/3، وما إلى ذلك)
تنسيق الشرح: بعض العينات تقدم إجابتين: "الاستدلال أو إيقافه"؛ ويكون أثر الاستدلال باللغة الإنجليزية

الاستشهاد

@software{NemotronPostTrainingDatasetV2,
author = {Nathawani, Dhruv and Ding, Shuoyang and Lavrukhin, Vitaly and Gitman, Igor and Majumdar, Somshubra and Bakhturina, Evelina and Ginsburg, Boris and Polak Scowcroft, Jane},
title = {{Nemotron-Post-Training-Dataset-v2}},
version = {2.0},
publisher = {{NVIDIA}},
year = {2025}, month = aug,
url = {https://huggingface.co/datasets/nvidia/Nemotron-Post-Training-Dataset-v2}
}

Nemotron-Post-Training-Dataset-v2.torrent

البذر 1جارٍ التنزيل 0مكتمل 86إجمالي التنزيلات 162

Nemotron-Post-Training-Dataset-v2/
- README.md
  1.94 KB
- README.txt
  3.88 KB

مجموعات البيانات ذات الصلة

مجموعة بيانات الاستدلال الرياضي SFT Nemotron-SFT-Math-v4

منذ 7 أيام

فهم مخطط ChartNet لمجموعة البيانات متعددة الوسائط

منذ 25 أيام

مجموعة بيانات أمراض أوراق الأرز

منذ شهر واحد

مجموعة بيانات LongBlocks للإجابة على الأسئلة متعددة اللغات ذات السياق الطويل

منذ شهر واحد

مجموعة بيانات الكشف عن حرائق الغابات والدخان من مسافات بعيدة

منذ 2 أشهر

رسم بياني لمعايرة الكم QCalEval لفهم مجموعة البيانات

منذ 2 أشهر

تدريب اليوغا: تصنيف حركات اليوغا ومجموعة بيانات التدريب

منذ 2 أشهر

مجموعة بيانات Transfermarkt لكرة القدم

منذ 2 أشهر

مجموعة بيانات الكشف عن المشاعر باستخدام مجسات المشاعر

منذ 2 أشهر

مجموعة بيانات مضغوطة في ذاكرة سياق OpenMementos

منذ 2 أشهر

مجموعة بيانات GPT-5.4-step-by-step-reasoning

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

مجموعة بيانات ما بعد التدريب Nemotron-Post-Training-Dataset-v2

الاستشهاد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات ما بعد التدريب Nemotron-Post-Training-Dataset-v2

الاستشهاد

مجموعات البيانات ذات الصلة

مجموعة بيانات الاستدلال الرياضي SFT Nemotron-SFT-Math-v4

فهم مخطط ChartNet لمجموعة البيانات متعددة الوسائط

مجموعة بيانات أمراض أوراق الأرز

مجموعة بيانات LongBlocks للإجابة على الأسئلة متعددة اللغات ذات السياق الطويل

مجموعة بيانات الكشف عن حرائق الغابات والدخان من مسافات بعيدة

رسم بياني لمعايرة الكم QCalEval لفهم مجموعة البيانات

تدريب اليوغا: تصنيف حركات اليوغا ومجموعة بيانات التدريب

مجموعة بيانات Transfermarkt لكرة القدم

مجموعة بيانات الكشف عن المشاعر باستخدام مجسات المشاعر

مجموعة بيانات مضغوطة في ذاكرة سياق OpenMementos

مجموعة بيانات GPT-5.4-step-by-step-reasoning

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات ما بعد التدريب Nemotron-Post-Training-Dataset-v2

الاستشهاد

مجموعات البيانات ذات الصلة

مجموعة بيانات الاستدلال الرياضي SFT Nemotron-SFT-Math-v4

فهم مخطط ChartNet لمجموعة البيانات متعددة الوسائط

مجموعة بيانات أمراض أوراق الأرز

مجموعة بيانات LongBlocks للإجابة على الأسئلة متعددة اللغات ذات السياق الطويل

مجموعة بيانات الكشف عن حرائق الغابات والدخان من مسافات بعيدة

رسم بياني لمعايرة الكم QCalEval لفهم مجموعة البيانات

تدريب اليوغا: تصنيف حركات اليوغا ومجموعة بيانات التدريب

مجموعة بيانات Transfermarkt لكرة القدم

مجموعة بيانات الكشف عن المشاعر باستخدام مجسات المشاعر

مجموعة بيانات مضغوطة في ذاكرة سياق OpenMementos

مجموعة بيانات GPT-5.4-step-by-step-reasoning

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

مجموعات البيانات ذات الصلة

مجموعة بيانات الاستدلال الرياضي SFT Nemotron-SFT-Math-v4

فهم مخطط ChartNet لمجموعة البيانات متعددة الوسائط

مجموعة بيانات أمراض أوراق الأرز

مجموعة بيانات LongBlocks للإجابة على الأسئلة متعددة اللغات ذات السياق الطويل

مجموعة بيانات الكشف عن حرائق الغابات والدخان من مسافات بعيدة

رسم بياني لمعايرة الكم QCalEval لفهم مجموعة البيانات

تدريب اليوغا: تصنيف حركات اليوغا ومجموعة بيانات التدريب

مجموعة بيانات Transfermarkt لكرة القدم

مجموعة بيانات الكشف عن المشاعر باستخدام مجسات المشاعر

مجموعة بيانات مضغوطة في ذاكرة سياق OpenMementos

مجموعة بيانات GPT-5.4-step-by-step-reasoning

مجموعات البيانات ذات الصلة

مجموعة بيانات الاستدلال الرياضي SFT Nemotron-SFT-Math-v4

فهم مخطط ChartNet لمجموعة البيانات متعددة الوسائط

مجموعة بيانات أمراض أوراق الأرز

مجموعة بيانات LongBlocks للإجابة على الأسئلة متعددة اللغات ذات السياق الطويل

مجموعة بيانات الكشف عن حرائق الغابات والدخان من مسافات بعيدة

رسم بياني لمعايرة الكم QCalEval لفهم مجموعة البيانات

تدريب اليوغا: تصنيف حركات اليوغا ومجموعة بيانات التدريب

مجموعة بيانات Transfermarkt لكرة القدم

مجموعة بيانات الكشف عن المشاعر باستخدام مجسات المشاعر

مجموعة بيانات مضغوطة في ذاكرة سياق OpenMementos

مجموعة بيانات GPT-5.4-step-by-step-reasoning