HyperAIHyperAI

Ensemble De Données De Pré-formation Nemotron-CC-v2

Date

il y a 7 jours

Organisation

NVIDIA

URL de publication

huggingface.co

Licence

其他

Aide au téléchargement

Nemotron-CC-v2 est une version de suivi de Nemotron-CC publiée par NVIDIA en 2025. Les résultats de l'article associé sont "NVIDIA Nemotron Nano 2 : un modèle de raisonnement hybride Mamba-Transformer précis et efficace".

Cet ensemble de données s'appuie sur le corpus web anglais existant en ajoutant huit instantanés Common Crawl de 2024-2025, en effectuant une déduplication globale et un filtrage anglais. Il utilise également Qwen3-30B-A3B pour synthétiser et reformuler le contenu web, complété par des questions-réponses diversifiées (AQ diversifiée), et traduit en 15 langues afin d'améliorer le raisonnement logique multilingue et la préformation des connaissances générales. Son importance réside dans l'amélioration de l'approche efficace « pages web anglaises de haute qualité → AQ diversifiée synthétisée », en combinant une exploration web actualisée et une expansion multilingue dans une approche systématique. Grâce à une déduplication, un filtrage et une distribution reproductible rigoureux, il facilite l'intégration directe dans divers pipelines de préformation.