Date

il y a un an

Taille

231.15 MB

Licence

Apache 2.0

Balises

* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

Cet ensemble de données est un ensemble de données R1 chinois open source distillé de sang complet. L'ensemble de données contient non seulement des données mathématiques, mais également une grande quantité de données de type général, avec un montant total de 110 000. La raison pour laquelle cet ensemble de données est rendu open source est que l'effet de R1 est très puissant, et le petit modèle basé sur les données distillées de R1 SFT montre également un effet fort. Cependant, une recherche a révélé que la plupart des ensembles de données distillés R1 open source sont des ensembles de données anglais. Dans le même temps, le rapport R1 montre que certains ensembles de données de scène généraux sont également utilisés dans le modèle de distillation. Afin d'aider tout le monde à mieux reproduire l'effet du modèle de distillation R1, nous ouvrons par la présente la source de l'ensemble de données chinois. La distribution des données dans cet ensemble de données chinois est la suivante :

Mathématiques : 36 987 échantillons au total,
Examen : 2 440 échantillons au total,
STEM : 12 000 échantillons au total,
Général : Un total de 58 573, y compris Retarded Bar, Logical Reasoning, Xiaohongshu, Zhihu, Chat, etc. Description du champ :
entrée : entrée
reasoning_content : Réflexion
contenu : sortie
repo_name : source de données

Citation

@misc{Chinese-Data-Distill-From-R1, Auteurs : {Cong Liu, Zhong Wang, ShengYu Shen, Jialiang Peng, Xiaoli Zhang, ZhenDong Du, YaFang Wang} titre = {L'ensemble de données chinois extrait de DeepSeek-R1-671b}, année = {2025}, éditeur = {HuggingFace}, commentpublié = {\url{https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k}}, }

Chinese-DeepSeek-R1-Distill-data-110k.torrent

Partage 1Téléchargement 0Terminé 235Total des téléchargements 532

Chinese-DeepSeek-R1-Distill-data-110k/
- README.md
  1.74 KB
- README.txt
  3.48 KB

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

il y a 2 jours

Ensemble De Données De Reconstruction d'objets 3D Pour Artistes SAM 3D

il y a 5 jours

Nemotron-SFT-Math-v4 Jeu De Données SFT Pour l'inférence Mathématique

il y a 7 jours

Ensemble De Données De Référence FigureBench Pour La Génération d'illustrations Scientifiques

il y a 7 jours

Ensemble De Données Parallèles De Traduction Multilingue SMOL

il y a un mois

Ensemble De Données d'évaluation Comparative Des Agents Intelligents Médicaux chi-bench

il y a 13 jours

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données

Discuter sur Discord

Date

il y a un an

Taille

231.15 MB

Licence

Apache 2.0

Balises

DeepSeek

* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

Mathématiques : 36 987 échantillons au total,
Examen : 2 440 échantillons au total,
STEM : 12 000 échantillons au total,
Général : Un total de 58 573, y compris Retarded Bar, Logical Reasoning, Xiaohongshu, Zhihu, Chat, etc. Description du champ :
entrée : entrée
reasoning_content : Réflexion
contenu : sortie
repo_name : source de données

Citation

Chinese-DeepSeek-R1-Distill-data-110k.torrent

Partage 1Téléchargement 0Terminé 235Total des téléchargements 532

Chinese-DeepSeek-R1-Distill-data-110k/
- README.md
  1.74 KB
- README.txt
  3.48 KB

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

il y a 2 jours

Ensemble De Données De Reconstruction d'objets 3D Pour Artistes SAM 3D

il y a 5 jours

Nemotron-SFT-Math-v4 Jeu De Données SFT Pour l'inférence Mathématique

il y a 7 jours

Ensemble De Données De Référence FigureBench Pour La Génération d'illustrations Scientifiques

il y a 7 jours

Ensemble De Données Parallèles De Traduction Multilingue SMOL

il y a un mois

Ensemble De Données d'évaluation Comparative Des Agents Intelligents Médicaux chi-bench

il y a 13 jours

Ensemble De Données ViMU Sur La Compréhension Des Métaphores Vidéo

il y a un mois

Ensemble De Données De Référence Multimodal À Contexte Long MemLens

il y a un mois

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

il y a 2 mois

Ensemble De Données Compressées En Mémoire Contextuelle OpenMementos

il y a 2 mois

Ensemble De Données BRIGHT Pour l'évaluation Des Bâtiments Sinistrés

il y a 8 jours

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Données De Distillation Chinoises DeepSeek R1 110 000 chinoises Basées Sur l'ensemble De Données De Distillation DeepSeek-R1

* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

Citation

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Données De Distillation Chinoises DeepSeek R1 110 000 chinoises Basées Sur l'ensemble De Données De Distillation DeepSeek-R1

* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

Citation

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

Ensemble De Données De Reconstruction d'objets 3D Pour Artistes SAM 3D

Nemotron-SFT-Math-v4 Jeu De Données SFT Pour l'inférence Mathématique

Ensemble De Données De Référence FigureBench Pour La Génération d'illustrations Scientifiques

Ensemble De Données Parallèles De Traduction Multilingue SMOL

Ensemble De Données d'évaluation Comparative Des Agents Intelligents Médicaux chi-bench

Ensemble De Données ViMU Sur La Compréhension Des Métaphores Vidéo

Ensemble De Données De Référence Multimodal À Contexte Long MemLens

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

Ensemble De Données Compressées En Mémoire Contextuelle OpenMementos

Ensemble De Données BRIGHT Pour l'évaluation Des Bâtiments Sinistrés

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Données De Distillation Chinoises DeepSeek R1 110 000 chinoises Basées Sur l'ensemble De Données De Distillation DeepSeek-R1

* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

Citation

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

Ensemble De Données De Reconstruction d'objets 3D Pour Artistes SAM 3D

Nemotron-SFT-Math-v4 Jeu De Données SFT Pour l'inférence Mathématique

Ensemble De Données De Référence FigureBench Pour La Génération d'illustrations Scientifiques

Ensemble De Données Parallèles De Traduction Multilingue SMOL

Ensemble De Données d'évaluation Comparative Des Agents Intelligents Médicaux chi-bench

Ensemble De Données ViMU Sur La Compréhension Des Métaphores Vidéo

Ensemble De Données De Référence Multimodal À Contexte Long MemLens

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

Ensemble De Données Compressées En Mémoire Contextuelle OpenMementos

Ensemble De Données BRIGHT Pour l'évaluation Des Bâtiments Sinistrés

Créer de l'IA avec l'IA

HyperAI Newsletters

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

Ensemble De Données De Reconstruction d'objets 3D Pour Artistes SAM 3D

Nemotron-SFT-Math-v4 Jeu De Données SFT Pour l'inférence Mathématique

Ensemble De Données De Référence FigureBench Pour La Génération d'illustrations Scientifiques

Ensemble De Données Parallèles De Traduction Multilingue SMOL

Ensemble De Données d'évaluation Comparative Des Agents Intelligents Médicaux chi-bench

Ensemble De Données ViMU Sur La Compréhension Des Métaphores Vidéo

Ensemble De Données De Référence Multimodal À Contexte Long MemLens

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

Ensemble De Données Compressées En Mémoire Contextuelle OpenMementos

Ensemble De Données BRIGHT Pour l'évaluation Des Bâtiments Sinistrés

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

Ensemble De Données De Reconstruction d'objets 3D Pour Artistes SAM 3D

Nemotron-SFT-Math-v4 Jeu De Données SFT Pour l'inférence Mathématique

Ensemble De Données De Référence FigureBench Pour La Génération d'illustrations Scientifiques

Ensemble De Données Parallèles De Traduction Multilingue SMOL

Ensemble De Données d'évaluation Comparative Des Agents Intelligents Médicaux chi-bench

Ensemble De Données ViMU Sur La Compréhension Des Métaphores Vidéo

Ensemble De Données De Référence Multimodal À Contexte Long MemLens

Cancer Du Sein : Ensemble De Données De Fusion Multimodale

Ensemble De Données Compressées En Mémoire Contextuelle OpenMementos

Ensemble De Données BRIGHT Pour l'évaluation Des Bâtiments Sinistrés