Date

il y a un an

Taille

47.22 GB

Organisation

URL de publication

URL du document

Balises

Traitement Du Langage Naturel

Reasoning

Entraînement Du Modèle

AM-DeepSeek-R1-Distilled-1.4M est un ensemble de données de tâches de raisonnement général à grande échelle publié par am-team en mars 2025. Les résultats de l'article associé sont «1,4 million de données de raisonnement distillées open source pour permettre la formation de modèles linguistiques à grande échelle". L'ensemble de données contient environ 1,4 million d'entrées de données, couvrant une variété de types de questions, notamment les mathématiques, le code, les questions-réponses scientifiques et le chat général. Ces données ont été soigneusement sélectionnées, dédupliquées sémantiquement et strictement nettoyées pour garantir la haute qualité et le défi des données. Chaque entrée de l'ensemble de données contient des traces de réflexion riches, qui non seulement fournissent au modèle des exemples du processus de raisonnement, mais aident également le modèle à mieux comprendre et à générer des solutions à des tâches de raisonnement complexes. La publication de l'ensemble de données AM-DeepSeek-R1-Distilled-1.4M vise à fournir un outil puissant pour les tâches de traitement et de raisonnement du langage naturel, en particulier pour la formation et l'optimisation des capacités de raisonnement des grands modèles de langage. Il peut aider les modèles à améliorer leurs performances dans des domaines clés tels que les mathématiques, le code et la réponse aux questions scientifiques, afin qu'ils puissent mieux faire face à diverses tâches de raisonnement complexes.

Citation

Si vous trouvez notre travail utile à vos recherches, merci de nous attribuer une étoile :star: et de citer notre travail :pencil: « BibTeX » @misc{tian2025correctanswersequaldistillation, titre={Toutes les réponses correctes ne se valent pas : pourquoi votre source de distillation est importante}, author={Xiaoyu Tian et Yunjie Ji et Haotian Wang et Shuaiting Chen et Sitong Zhao et Yiping Peng et Han Zhao et Xiangang Li}, année={2025}, eprint={2505.14464}, préfixe d'archive={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.14464}, } @misc{ji2025amthinkingv1advancingfrontierreasoning, titre={AM-Thinking-v1 : Repousser les frontières du raisonnement à l’échelle 32B}, author={Yunjie Ji et Xiaoyu Tian et Sitong Zhao et Haotian Wang et Shuaiting Chen et Yiping Peng et Han Zhao et Xiangang Li}, année={2025}, eprint={2505.08311}, préfixe d'archive={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.08311}, } @misc{tian2025exploringpotentialofflinerl, titre={Exploration du potentiel de l'apprentissage par renforcement hors ligne pour le raisonnement dans les masters en droit : une étude préliminaire}, author={Xiaoyu Tian et Sitong Zhao et Haotian Wang et Shuaiting Chen et Yiping Peng et Yunjie Ji et Han Zhao et Xiangang Li}, année={2025}, eprint={2505.02142}, préfixe d'archive={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.02142}, } @misc{tian2025deepdistillenhancingllmreasoning, titre={DeepDistill : Amélioration des capacités de raisonnement des étudiants en droit grâce à un entraînement sur des données à grande échelle et à difficulté graduée}, author={Xiaoyu Tian et Sitong Zhao et Haotian Wang et Shuaiting Chen et Yiping Peng et Yunjie Ji et Han Zhao et Xiangang Li}, année={2025}, eprint={2504.17565}, préfixe d'archive={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.17565}, } @misc{wang2025leveragingreasoningmodelanswers, titre={Exploiter les réponses du modèle de raisonnement pour améliorer la capacité du modèle non-raisonnement}, author={Haotian Wang et Han Zhao et Shuaiting Chen et Xiaoyu Tian et Sitong Zhao et Yunjie Ji et Yiping Peng et Xiangang Li}, année={2025}, eprint={2504.09639}, préfixe d'archive={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.09639}, } @misc{ji2025difficultyawarestagedreinforcementlearning, titre={Comment l'apprentissage par renforcement progressif tenant compte de la difficulté améliore les capacités de raisonnement des étudiants en droit : une étude expérimentale préliminaire}, author={Yunjie Ji et Sitong Zhao et Xiaoyu Tian et Haotian Wang et Shuaiting Chen et Yiping Peng et Han Zhao et Xiangang Li}, année={2025}, eprint={2504.00829}, préfixe d'archive={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.00829}, } @misc{tian2025thinktwiceenhancingllm, titre={Réfléchir à deux fois : améliorer le raisonnement en LLM en optimisant la réflexion lors des tests à plusieurs tours}, author={Xiaoyu Tian et Sitong Zhao et Haotian Wang et Shuaiting Chen et Yunjie Ji et Yiping Peng et Han Zhao et Xiangang Li}, année={2025}, eprint={2503.19855}, préfixe d'archive={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.19855}, } @misc{zhao202514millionopensourcedistillé, titre={Ensemble de données de raisonnement distillé open source de 1,4 million de modèles pour optimiser l'entraînement des grands modèles de langage}, author={Han Zhao et Haotian Wang et Yiping Peng et Sitong Zhao et Xiaoyu Tian et Shuaiting Chen et Yunjie Ji et Xiangang Li}, année={2025}, eprint={2503.19633}, préfixe d'archive={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.19633}, } “`

AM-DeepSeek-R1-Distilled-1.4M.torrent

Partage 1Téléchargement 0Terminé 122Total des téléchargements 272

AM-DeepSeek-R1-Distilled-1.4M/
- README.md
  1.8 KB
- README.txt
  3.6 KB

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

il y a 3 heures

Ensemble De Données d'extraction De Preuves De Condition De Requête Verbatim Spans

Ensemble De Données De Trajectoires d'interaction d'agents Intelligents AgentTrove

il y a un mois

Ensemble De Données De Référence Multimodal MathNet Pour l'inférence Mathématique

il y a un mois

Ensemble De Données De Classification Des Maladies Du Fond d'œil

il y a un mois

Ensemble De Données De Compréhension Du Graphe d'étalonnage Quantique QCalEval

il y a 2 mois

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

il y a un jour

Ensemble De Données BRIGHT Pour l'évaluation Des Bâtiments Sinistrés

il y a un jour

Ensemble De Données d'évaluation Des Capacités d'analyse Multimodale d'OmniParsingBench

il y a un jour

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

il y a un jour

Ensemble De Données De Raisonnement Étape Par Étape GPT-5.4

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données

Discuter sur Discord

Date

il y a un an

Taille

47.22 GB

Organisation

URL de publication

URL du document

Balises

Traitement Du Langage Naturel

Reasoning

Entraînement Du Modèle

Citation

AM-DeepSeek-R1-Distilled-1.4M.torrent

Partage 1Téléchargement 0Terminé 122Total des téléchargements 272

AM-DeepSeek-R1-Distilled-1.4M/
- README.md
  1.8 KB
- README.txt
  3.6 KB

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Ensemble De Données De Tâches De Raisonnement Général À Grande Échelle AM-DeepSeek-R1-Distilled-1,4M

Citation

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données De Tâches De Raisonnement Général À Grande Échelle AM-DeepSeek-R1-Distilled-1,4M

Citation

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

Ensemble De Données d'extraction De Preuves De Condition De Requête Verbatim Spans

Ensemble De Données De Reconstruction d'objets 3D Pour Artistes SAM 3D

Nemotron-SFT-Math-v4 Jeu De Données SFT Pour l'inférence Mathématique

Base De Données De Connaissances TACK Targeted Chimera

Ensemble De Données EAVSD Sur Les Storyboards Vidéo Publicitaires Pour Le Commerce Électronique

Ensemble De Données Parallèles De Traduction Multilingue SMOL

Ensemble De Données d'évaluation Comparative Des Agents Intelligents Médicaux chi-bench

Ensemble De Données ViMU Sur La Compréhension Des Métaphores Vidéo

Ensemble De Données De Référence Multimodal À Contexte Long MemLens

Ensemble De Données d'inférence Visuelle VisCoR-55K

Ensemble De Données De Trajectoires d'interaction d'agents Intelligents AgentTrove

Ensemble De Données De Référence Multimodal MathNet Pour l'inférence Mathématique

Ensemble De Données De Classification Des Maladies Du Fond d'œil

Ensemble De Données De Compréhension Du Graphe d'étalonnage Quantique QCalEval

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

Ensemble De Données BRIGHT Pour l'évaluation Des Bâtiments Sinistrés

Ensemble De Données d'évaluation Des Capacités d'analyse Multimodale d'OmniParsingBench

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

Ensemble De Données De Raisonnement Étape Par Étape GPT-5.4

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données De Tâches De Raisonnement Général À Grande Échelle AM-DeepSeek-R1-Distilled-1,4M

Citation

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

Ensemble De Données d'extraction De Preuves De Condition De Requête Verbatim Spans

Ensemble De Données De Reconstruction d'objets 3D Pour Artistes SAM 3D

Nemotron-SFT-Math-v4 Jeu De Données SFT Pour l'inférence Mathématique

Base De Données De Connaissances TACK Targeted Chimera

Ensemble De Données EAVSD Sur Les Storyboards Vidéo Publicitaires Pour Le Commerce Électronique

Ensemble De Données Parallèles De Traduction Multilingue SMOL

Ensemble De Données d'évaluation Comparative Des Agents Intelligents Médicaux chi-bench

Ensemble De Données ViMU Sur La Compréhension Des Métaphores Vidéo

Ensemble De Données De Référence Multimodal À Contexte Long MemLens

Ensemble De Données d'inférence Visuelle VisCoR-55K

Ensemble De Données De Trajectoires d'interaction d'agents Intelligents AgentTrove

Ensemble De Données De Référence Multimodal MathNet Pour l'inférence Mathématique

Ensemble De Données De Classification Des Maladies Du Fond d'œil

Ensemble De Données De Compréhension Du Graphe d'étalonnage Quantique QCalEval

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

Ensemble De Données BRIGHT Pour l'évaluation Des Bâtiments Sinistrés

Ensemble De Données d'évaluation Des Capacités d'analyse Multimodale d'OmniParsingBench

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

Ensemble De Données De Raisonnement Étape Par Étape GPT-5.4

Créer de l'IA avec l'IA

HyperAI Newsletters

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL

Ensemble De Données d'extraction De Preuves De Condition De Requête Verbatim Spans

Ensemble De Données De Reconstruction d'objets 3D Pour Artistes SAM 3D

Nemotron-SFT-Math-v4 Jeu De Données SFT Pour l'inférence Mathématique

Base De Données De Connaissances TACK Targeted Chimera

Ensemble De Données EAVSD Sur Les Storyboards Vidéo Publicitaires Pour Le Commerce Électronique

Ensemble De Données Parallèles De Traduction Multilingue SMOL

Ensemble De Données d'évaluation Comparative Des Agents Intelligents Médicaux chi-bench

Ensemble De Données ViMU Sur La Compréhension Des Métaphores Vidéo

Ensemble De Données De Référence Multimodal À Contexte Long MemLens

Ensemble De Données d'inférence Visuelle VisCoR-55K

Ensemble De Données De Trajectoires d'interaction d'agents Intelligents AgentTrove

Ensemble De Données De Référence Multimodal MathNet Pour l'inférence Mathématique

Ensemble De Données De Classification Des Maladies Du Fond d'œil

Ensemble De Données De Compréhension Du Graphe d'étalonnage Quantique QCalEval

Ensemble De Données De Référence Pour La Compréhension Des Changements De Zone Par Télédétection RSRCC

Ensemble De Données BRIGHT Pour l'évaluation Des Bâtiments Sinistrés

Ensemble De Données d'évaluation Des Capacités d'analyse Multimodale d'OmniParsingBench

Ensemble De Données De Référence Pour l'analyse Syntaxique Multilingue De Documents MDPBench

Ensemble De Données De Raisonnement Étape Par Étape GPT-5.4

undefined

Ensemble De Données d'évaluation Des Connaissances Culturelles Multilingues De MAKIEVAL