Ensemble De Données De Tâches De Raisonnement Général À Grande Échelle AM-DeepSeek-R1-Distilled-1,4M
Date
Taille
URL de publication
Catégories
AM-DeepSeek-R1-Distilled-1.4M est un ensemble de données de tâches de raisonnement général à grande échelle publié par am-team en mars 2025. Les résultats de l'article associé sont «1,4 million de données de raisonnement distillées open source pour permettre la formation de modèles linguistiques à grande échelle".
L'ensemble de données contient environ 1,4 million d'entrées de données, couvrant une variété de types de questions, notamment les mathématiques, le code, les questions-réponses scientifiques et le chat général. Ces données ont été soigneusement sélectionnées, dédupliquées sémantiquement et strictement nettoyées pour garantir la haute qualité et le défi des données. Chaque entrée de l'ensemble de données contient des traces de réflexion riches, qui non seulement fournissent au modèle des exemples du processus de raisonnement, mais aident également le modèle à mieux comprendre et à générer des solutions à des tâches de raisonnement complexes. La publication de l'ensemble de données AM-DeepSeek-R1-Distilled-1.4M vise à fournir un outil puissant pour les tâches de traitement et de raisonnement du langage naturel, en particulier pour la formation et l'optimisation des capacités de raisonnement des grands modèles de langage. Il peut aider les modèles à améliorer leurs performances dans des domaines clés tels que les mathématiques, le code et la réponse aux questions scientifiques, afin qu'ils puissent mieux faire face à diverses tâches de raisonnement complexes.