HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données post-formation Nemotron-Post-Training-Dataset-v2 Ensemble De Données post-formation

Date

il y a 5 mois

Taille

36.78 GB

Organisation

NVIDIA

URL du document

2508.14444

Licence

CC BY 4.0

Le jeu de données Nemotron-Post-Training-v2 est une version lancée par NVIDIA en 2025, basée sur le corpus post-entraînement existant. Ce jeu de données étend les données SFT et RL à cinq langues cibles (espagnol, français, allemand, italien et japonais), couvrant les mathématiques, le code, les STEM (sciences, technologie, ingénierie et mathématiques), le dialogue et d'autres scénarios. Il permet d'améliorer les capacités de raisonnement et de suivi des instructions du modèle. Il fournit également des fonctions de filtrage basées sur les métadonnées et des exemples de sous-ensembles typiques. Ce jeu de données sert à la recherche sur la diffusion et l'alignement de la série Nemotron-Nano-9B-v2 et constitue l'un de ses corpus post-entraînement publics, facilitant ainsi la reproduction et l'amélioration des expériences. Les résultats de l'article sont les suivants :NVIDIA Nemotron Nano 2 : un modèle de raisonnement hybride Mamba-Transformer précis et efficace".

Échantillons criblablesdistribuéAvec des métadonnées:

  • Téléchargement de filtre : prend en charge le filtrage et le téléchargement rapides par métadonnées telles que la catégorie/la langue/le modèle source
  • Catégorie et taille (valeur) : math (239 467) ; code (175 000) ; stem (355 000) ; chat (627 720)
  • Couverture multilingue : ja, de, it, es, fr
  • Source : Synthétisé à partir de plusieurs grands modèles (tels que DeepSeek-R1-0528, série Qwen 2.5/3, etc.)
  • Format d'annotation : Certains échantillons fournissent deux réponses : « raisonnement activé ou désactivé » ; la trace du raisonnement est en anglais

Nemotron-Post-Training-Dataset-v2.torrent
Seeding 1Téléchargement 0Terminé 41Total Downloads 125
  • Nemotron-Post-Training-Dataset-v2/
    • README.md
      1.94 KB
    • README.txt
      3.88 KB
      • data/
        • Nemotron-Post-Training-Dataset-v2.zip
          36.78 GB

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp