التاريخ

منذ عام واحد

الحجم

231.15 MB

الترخيص

Apache 2.0

الوسوم

* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.

هذه المجموعة من البيانات عبارة عن مجموعة بيانات R1 كاملة المصدر ومقطرة ومفتوحة المصدر. لا تحتوي مجموعة البيانات على بيانات رياضية فحسب، بل تحتوي أيضًا على كمية كبيرة من البيانات العامة، بإجمالي يصل إلى 110 كيلو بايت. السبب وراء جعل هذه المجموعة من البيانات مفتوحة المصدر هو أن تأثير R1 قوي جدًا، والنموذج الصغير الذي يعتمد على بيانات SFT المقطرة من R1 يظهر أيضًا تأثيرًا قويًا. ومع ذلك، وجد البحث أن معظم مجموعات البيانات المقطرة R1 مفتوحة المصدر هي مجموعات بيانات باللغة الإنجليزية. وفي الوقت نفسه، يوضح تقرير R1 أن بعض مجموعات بيانات السيناريوهات العامة تُستخدم أيضًا في نموذج التقطير. من أجل مساعدة الجميع على إعادة إنتاج تأثير نموذج التقطير R1 بشكل أفضل، فإننا نفتح المصدر لمجموعة البيانات الصينية. توزيع البيانات في مجموعة البيانات الصينية هو كما يلي:

الرياضيات: 36,987 عينة في المجموع،
الامتحان: 2440 عينة في المجموع،
STEM: 12000 عينة في المجموع،
عام: إجمالي 58,573، بما في ذلك Retarded Bar، وLogical Reasoning، وXiaohongshu، وZhihu، وChat، وما إلى ذلك. وصف الحقل:
الإدخال: الإدخال
reasoning_content: التفكير
المحتوى: الإخراج
اسم المستودع: مصدر البيانات

الاستشهاد

@misc{Chinese-Data-Distill-From-R1, المؤلفون: {كونغ ليو، تشونغ وانغ، شينغ يو شين، جياليانغ بينغ، شياو لي تشانغ، زين دونغ دو، يافانغ وانغ} العنوان = {مجموعة البيانات الصينية المستخلصة من DeepSeek-R1-671b}, السنة = {2025}، الناشر = {HuggingFace}, howpublished = {\url{https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k}}, }

Chinese-DeepSeek-R1-Distill-data-110k.torrent

البذر 1جارٍ التنزيل 0مكتمل 235إجمالي التنزيلات 532

Chinese-DeepSeek-R1-Distill-data-110k/
- README.md
  1.74 KB
- README.txt
  3.48 KB

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

استخدم مجموعة البيانات هذه

ناقش على Discord

التاريخ

منذ عام واحد

الحجم

231.15 MB

الترخيص

Apache 2.0

الوسوم

DeepSeek

* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.

الرياضيات: 36,987 عينة في المجموع،
الامتحان: 2440 عينة في المجموع،
STEM: 12000 عينة في المجموع،
عام: إجمالي 58,573، بما في ذلك Retarded Bar، وLogical Reasoning، وXiaohongshu، وZhihu، وChat، وما إلى ذلك. وصف الحقل:
الإدخال: الإدخال
reasoning_content: التفكير
المحتوى: الإخراج
اسم المستودع: مصدر البيانات

الاستشهاد

Chinese-DeepSeek-R1-Distill-data-110k.torrent

البذر 1جارٍ التنزيل 0مكتمل 235إجمالي التنزيلات 532

Chinese-DeepSeek-R1-Distill-data-110k/
- README.md
  1.74 KB
- README.txt
  3.48 KB

مجموعات البيانات ذات الصلة

مجموعة بيانات تقييم المعرفة الثقافية متعددة اللغات MAKIEVAL

منذ 10 ساعات

مجموعة بيانات إعادة بناء الكائنات ثلاثية الأبعاد للفنانين SAM 3D

منذ 5 أيام

مجموعة بيانات الاستدلال الرياضي SFT Nemotron-SFT-Math-v4

منذ 7 أيام

مجموعة بيانات مرجعية لتوليد الرسوم التوضيحية العلمية من FigureBench

منذ 7 أيام

مجموعة بيانات SMOL للترجمة المتوازية متعددة اللغات

منذ شهر واحد

مجموعة بيانات تقييم معايير الوكلاء الأذكياء الطبيين chi-bench

منذ 13 أيام

استعارة فيديو Vimu لفهم مجموعة البيانات

منذ شهر واحد

مجموعة بيانات MemLens المعيارية متعددة الوسائط ذات السياق الطويل

منذ شهر واحد

سرطان الثدي: مجموعة بيانات الدمج متعددة الوسائط

منذ 2 أشهر

مجموعة بيانات مضغوطة في ذاكرة سياق OpenMementos

منذ 2 أشهر

مجموعة بيانات تقييم المباني المتضررة من الكوارث BRIGHT

منذ 8 أيام

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

بيانات التقطير الصينية DeepSeek R1 110k استنادًا إلى مجموعة بيانات التقطير DeepSeek-R1

* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.

الاستشهاد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

بيانات التقطير الصينية DeepSeek R1 110k استنادًا إلى مجموعة بيانات التقطير DeepSeek-R1

* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.

الاستشهاد

مجموعات البيانات ذات الصلة

مجموعة بيانات تقييم المعرفة الثقافية متعددة اللغات MAKIEVAL

مجموعة بيانات إعادة بناء الكائنات ثلاثية الأبعاد للفنانين SAM 3D

مجموعة بيانات الاستدلال الرياضي SFT Nemotron-SFT-Math-v4

مجموعة بيانات مرجعية لتوليد الرسوم التوضيحية العلمية من FigureBench

مجموعة بيانات SMOL للترجمة المتوازية متعددة اللغات

مجموعة بيانات تقييم معايير الوكلاء الأذكياء الطبيين chi-bench

استعارة فيديو Vimu لفهم مجموعة البيانات

مجموعة بيانات MemLens المعيارية متعددة الوسائط ذات السياق الطويل

سرطان الثدي: مجموعة بيانات الدمج متعددة الوسائط

مجموعة بيانات مضغوطة في ذاكرة سياق OpenMementos

مجموعة بيانات تقييم المباني المتضررة من الكوارث BRIGHT

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

بيانات التقطير الصينية DeepSeek R1 110k استنادًا إلى مجموعة بيانات التقطير DeepSeek-R1

* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.

الاستشهاد

مجموعات البيانات ذات الصلة

مجموعة بيانات تقييم المعرفة الثقافية متعددة اللغات MAKIEVAL

مجموعة بيانات إعادة بناء الكائنات ثلاثية الأبعاد للفنانين SAM 3D

مجموعة بيانات الاستدلال الرياضي SFT Nemotron-SFT-Math-v4

مجموعة بيانات مرجعية لتوليد الرسوم التوضيحية العلمية من FigureBench

مجموعة بيانات SMOL للترجمة المتوازية متعددة اللغات

مجموعة بيانات تقييم معايير الوكلاء الأذكياء الطبيين chi-bench

استعارة فيديو Vimu لفهم مجموعة البيانات

مجموعة بيانات MemLens المعيارية متعددة الوسائط ذات السياق الطويل

سرطان الثدي: مجموعة بيانات الدمج متعددة الوسائط

مجموعة بيانات مضغوطة في ذاكرة سياق OpenMementos

مجموعة بيانات تقييم المباني المتضررة من الكوارث BRIGHT

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

مجموعات البيانات ذات الصلة

مجموعة بيانات تقييم المعرفة الثقافية متعددة اللغات MAKIEVAL

مجموعة بيانات إعادة بناء الكائنات ثلاثية الأبعاد للفنانين SAM 3D

مجموعة بيانات الاستدلال الرياضي SFT Nemotron-SFT-Math-v4

مجموعة بيانات مرجعية لتوليد الرسوم التوضيحية العلمية من FigureBench

مجموعة بيانات SMOL للترجمة المتوازية متعددة اللغات

مجموعة بيانات تقييم معايير الوكلاء الأذكياء الطبيين chi-bench

استعارة فيديو Vimu لفهم مجموعة البيانات

مجموعة بيانات MemLens المعيارية متعددة الوسائط ذات السياق الطويل

سرطان الثدي: مجموعة بيانات الدمج متعددة الوسائط

مجموعة بيانات مضغوطة في ذاكرة سياق OpenMementos

مجموعة بيانات تقييم المباني المتضررة من الكوارث BRIGHT

مجموعات البيانات ذات الصلة

مجموعة بيانات تقييم المعرفة الثقافية متعددة اللغات MAKIEVAL

مجموعة بيانات إعادة بناء الكائنات ثلاثية الأبعاد للفنانين SAM 3D

مجموعة بيانات الاستدلال الرياضي SFT Nemotron-SFT-Math-v4

مجموعة بيانات مرجعية لتوليد الرسوم التوضيحية العلمية من FigureBench

مجموعة بيانات SMOL للترجمة المتوازية متعددة اللغات

مجموعة بيانات تقييم معايير الوكلاء الأذكياء الطبيين chi-bench

استعارة فيديو Vimu لفهم مجموعة البيانات

مجموعة بيانات MemLens المعيارية متعددة الوسائط ذات السياق الطويل

سرطان الثدي: مجموعة بيانات الدمج متعددة الوسائط

مجموعة بيانات مضغوطة في ذاكرة سياق OpenMementos

مجموعة بيانات تقييم المباني المتضررة من الكوارث BRIGHT