HyperAIHyperAI

Command Palette

Search for a command to run...

بيانات التقطير الصينية DeepSeek R1 110k استنادًا إلى مجموعة بيانات التقطير DeepSeek-R1

التاريخ

منذ 9 أشهر

الحجم

231.15 MB

الترخيص

Apache 2.0

* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.

هذه المجموعة من البيانات عبارة عن مجموعة بيانات R1 كاملة المصدر ومقطرة ومفتوحة المصدر. لا تحتوي مجموعة البيانات على بيانات رياضية فحسب، بل تحتوي أيضًا على كمية كبيرة من البيانات العامة، بإجمالي يصل إلى 110 كيلو بايت.

السبب وراء جعل هذه المجموعة من البيانات مفتوحة المصدر هو أن تأثير R1 قوي جدًا، والنموذج الصغير الذي يعتمد على بيانات SFT المقطرة من R1 يظهر أيضًا تأثيرًا قويًا. ومع ذلك، وجد البحث أن معظم مجموعات البيانات المقطرة R1 مفتوحة المصدر هي مجموعات بيانات باللغة الإنجليزية. وفي الوقت نفسه، يوضح تقرير R1 أن بعض مجموعات بيانات السيناريوهات العامة تُستخدم أيضًا في نموذج التقطير. من أجل مساعدة الجميع على إعادة إنتاج تأثير نموذج التقطير R1 بشكل أفضل، فإننا نفتح المصدر لمجموعة البيانات الصينية.

توزيع البيانات في مجموعة البيانات الصينية هو كما يلي:

  • الرياضيات: 36,987 عينة في المجموع،
  • الامتحان: 2440 عينة في المجموع،
  • STEM: 12000 عينة في المجموع،
  • عام: إجمالي 58,573، بما في ذلك Retarded Bar، وLogical Reasoning، وXiaohongshu، وZhihu، وChat، وما إلى ذلك.

وصف الحقل:

  • الإدخال: الإدخال
  • reasoning_content: التفكير
  • المحتوى: الإخراج
  • اسم المستودع: مصدر البيانات
Chinese-DeepSeek-R1-Distill-data-110k.torrent
البذر 1التنزيل 0مكتمل 168إجمالي التنزيلات 451
  • Chinese-DeepSeek-R1-Distill-data-110k/
    • README.md
      1.74 KB
    • README.txt
      3.48 KB
      • data/
        • Chinese-DeepSeek-R1-Distill-110k.zip
          231.15 MB

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp