Ensemble De Données D'inférence Llama-Némotron
Date
Taille
URL de publication
Catégories
Cet ensemble de données est un ensemble de données de raisonnement multi-domaines de haute qualité publié par NVIDIA en 2025. Les résultats pertinents de l'article sont :Llama-Nemotron : modèles de raisonnement efficaces", vise à soutenir l'amélioration des performances des grands modèles de langage dans des tâches telles que les mathématiques, le code, le raisonnement scientifique et le suivi des instructions, et à aider les modèles de la série Llama-3.1/3.3-Nemotron à atteindre des capacités de raisonnement plus efficaces.
L'ensemble de données contient environ 22,06 millions de données mathématiques, environ 10,1 millions de données de code, et le reste est constitué de données dans les domaines de la science et de l'enseignement suivants. Les données sont générées de manière collaborative par plusieurs modèles tels que Llama-3.3-70B-Instruct, DeepSeek-R1 et Qwen-2.5, couvrant divers styles de raisonnement et chemins de résolution de problèmes pour répondre aux divers besoins de formation de modèles à grande échelle.