HyperAI

Ensemble De Données De Tâches De Raisonnement Général À Grande Échelle AM-DeepSeek-R1-Distilled-1,4M

Date

il y a 2 mois

Taille

47.22 GB

Organisation

URL de publication

github.com

AM-DeepSeek-R1-Distilled-1.4M est un ensemble de données de tâches de raisonnement général à grande échelle publié par am-team en mars 2025. Les résultats de l'article associé sont «1,4 million de données de raisonnement distillées open source pour permettre la formation de modèles linguistiques à grande échelle".

L'ensemble de données contient environ 1,4 million d'entrées de données, couvrant une variété de types de questions, notamment les mathématiques, le code, les questions-réponses scientifiques et le chat général. Ces données ont été soigneusement sélectionnées, dédupliquées sémantiquement et strictement nettoyées pour garantir la haute qualité et le défi des données. Chaque entrée de l'ensemble de données contient des traces de réflexion riches, qui non seulement fournissent au modèle des exemples du processus de raisonnement, mais aident également le modèle à mieux comprendre et à générer des solutions à des tâches de raisonnement complexes. La publication de l'ensemble de données AM-DeepSeek-R1-Distilled-1.4M vise à fournir un outil puissant pour les tâches de traitement et de raisonnement du langage naturel, en particulier pour la formation et l'optimisation des capacités de raisonnement des grands modèles de langage. Il peut aider les modèles à améliorer leurs performances dans des domaines clés tels que les mathématiques, le code et la réponse aux questions scientifiques, afin qu'ils puissent mieux faire face à diverses tâches de raisonnement complexes.

AM-DeepSeek-R1-Distilled-1.4M.torrent
Partage 1Téléchargement 0Terminés 0Téléchargements totaux 2
  • AM-DeepSeek-R1-Distilled-1.4M/
    • README.md
      1.8 KB
    • README.txt
      3.6 KB
      • data/
        • main.zip
          10.32 GB
          • main/
            • README.md
              10.32 GB
            • am_0.5M.jsonl
              23.84 GB
            • am_0.5M.jsonl.zst
              25.76 GB
            • am_0.9M.jsonl
              44.19 GB
            • am_0.9M.jsonl.zst
              47.19 GB
            • am_0.9M_sample_1k.jsonl
              47.21 GB
            • am_0.9M_sample_1k.jsonl.zst
              47.22 GB