HyperAIHyperAI

Command Palette

Search for a command to run...

بيانات التقطير الصينية DeepSeek R1 110k استنادًا إلى مجموعة بيانات التقطير DeepSeek-R1

Date

منذ 10 أشهر

Size

231.15 MB

License

Apache 2.0

* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.

هذه المجموعة من البيانات عبارة عن مجموعة بيانات R1 كاملة المصدر ومقطرة ومفتوحة المصدر. لا تحتوي مجموعة البيانات على بيانات رياضية فحسب، بل تحتوي أيضًا على كمية كبيرة من البيانات العامة، بإجمالي يصل إلى 110 كيلو بايت.

السبب وراء جعل هذه المجموعة من البيانات مفتوحة المصدر هو أن تأثير R1 قوي جدًا، والنموذج الصغير الذي يعتمد على بيانات SFT المقطرة من R1 يظهر أيضًا تأثيرًا قويًا. ومع ذلك، وجد البحث أن معظم مجموعات البيانات المقطرة R1 مفتوحة المصدر هي مجموعات بيانات باللغة الإنجليزية. وفي الوقت نفسه، يوضح تقرير R1 أن بعض مجموعات بيانات السيناريوهات العامة تُستخدم أيضًا في نموذج التقطير. من أجل مساعدة الجميع على إعادة إنتاج تأثير نموذج التقطير R1 بشكل أفضل، فإننا نفتح المصدر لمجموعة البيانات الصينية.

توزيع البيانات في مجموعة البيانات الصينية هو كما يلي:

  • الرياضيات: 36,987 عينة في المجموع،
  • الامتحان: 2440 عينة في المجموع،
  • STEM: 12000 عينة في المجموع،
  • عام: إجمالي 58,573، بما في ذلك Retarded Bar، وLogical Reasoning، وXiaohongshu، وZhihu، وChat، وما إلى ذلك.

وصف الحقل:

  • الإدخال: الإدخال
  • reasoning_content: التفكير
  • المحتوى: الإخراج
  • اسم المستودع: مصدر البيانات
Chinese-DeepSeek-R1-Distill-data-110k.torrent
Seeding 1Downloading 0Completed 179Total Downloads 483
  • Chinese-DeepSeek-R1-Distill-data-110k/
    • README.md
      1.74 KB
    • README.txt
      3.48 KB
      • data/
        • Chinese-DeepSeek-R1-Distill-110k.zip
          231.15 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp