HyperAI

بيانات التقطير الصينية DeepSeek R1 110k استنادًا إلى مجموعة بيانات التقطير DeepSeek-R1

التاريخ

منذ 3 أشهر

الحجم

231.15 MB

رابط النشر

huggingface.co

الترخيص

Apache 2.0

* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.

هذه المجموعة من البيانات عبارة عن مجموعة بيانات R1 كاملة المصدر ومقطرة ومفتوحة المصدر. لا تحتوي مجموعة البيانات على بيانات رياضية فحسب، بل تحتوي أيضًا على كمية كبيرة من البيانات العامة، بإجمالي يصل إلى 110 كيلو بايت.

السبب وراء جعل هذه المجموعة من البيانات مفتوحة المصدر هو أن تأثير R1 قوي جدًا، والنموذج الصغير الذي يعتمد على بيانات SFT المقطرة من R1 يظهر أيضًا تأثيرًا قويًا. ومع ذلك، وجد البحث أن معظم مجموعات البيانات المقطرة R1 مفتوحة المصدر هي مجموعات بيانات باللغة الإنجليزية. وفي الوقت نفسه، يوضح تقرير R1 أن بعض مجموعات بيانات السيناريوهات العامة تُستخدم أيضًا في نموذج التقطير. من أجل مساعدة الجميع على إعادة إنتاج تأثير نموذج التقطير R1 بشكل أفضل، فإننا نفتح المصدر لمجموعة البيانات الصينية.

توزيع البيانات في مجموعة البيانات الصينية هو كما يلي:

  • الرياضيات: 36,987 عينة في المجموع،
  • الامتحان: 2440 عينة في المجموع،
  • STEM: 12000 عينة في المجموع،
  • عام: إجمالي 58,573، بما في ذلك Retarded Bar، وLogical Reasoning، وXiaohongshu، وZhihu، وChat، وما إلى ذلك.

وصف الحقل:

  • الإدخال: الإدخال
  • reasoning_content: التفكير
  • المحتوى: الإخراج
  • اسم المستودع: مصدر البيانات
Chinese-DeepSeek-R1-Distill-data-110k.torrent
البذر 1التنزيل 1مكتمل 62إجمالي التنزيلات 163
  • Chinese-DeepSeek-R1-Distill-data-110k/
    • README.md
      1.74 KB
    • README.txt
      3.48 KB
      • data/
        • Chinese-DeepSeek-R1-Distill-110k.zip
          231.15 MB