HyperAI

Données De Distillation Chinoises DeepSeek R1 110 000 chinoises Basées Sur L'ensemble De Données De Distillation DeepSeek-R1

Date

il y a 3 mois

Taille

231.15 MB

URL de publication

huggingface.co

Licence

Apache 2.0

* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

Cet ensemble de données est un ensemble de données R1 chinois open source distillé de sang complet. L'ensemble de données contient non seulement des données mathématiques, mais également une grande quantité de données de type général, avec un montant total de 110 000.

La raison pour laquelle cet ensemble de données est rendu open source est que l'effet de R1 est très puissant, et le petit modèle basé sur les données distillées de R1 SFT montre également un effet fort. Cependant, une recherche a révélé que la plupart des ensembles de données distillés R1 open source sont des ensembles de données anglais. Dans le même temps, le rapport R1 montre que certains ensembles de données de scène généraux sont également utilisés dans le modèle de distillation. Afin d'aider tout le monde à mieux reproduire l'effet du modèle de distillation R1, nous ouvrons par la présente la source de l'ensemble de données chinois.

La distribution des données dans cet ensemble de données chinois est la suivante :

  • Mathématiques : 36 987 échantillons au total,
  • Examen : 2 440 échantillons au total,
  • STEM : 12 000 échantillons au total,
  • Général : Un total de 58 573, y compris Retarded Bar, Logical Reasoning, Xiaohongshu, Zhihu, Chat, etc.

Description du champ :

  • entrée : entrée
  • reasoning_content : Réflexion
  • contenu : sortie
  • repo_name : source de données
Chinese-DeepSeek-R1-Distill-data-110k.torrent
Partage 1Téléchargement 1Terminés 62Téléchargements totaux 163
  • Chinese-DeepSeek-R1-Distill-data-110k/
    • README.md
      1.74 KB
    • README.txt
      3.48 KB
      • data/
        • Chinese-DeepSeek-R1-Distill-110k.zip
          231.15 MB