HyperAIHyperAI

Nemotron-CC-v2-Vortrainingsdatensatz

Datum

vor 7 Tagen

Organisation

NVIDIA

Veröffentlichungs-URL

huggingface.co

Lizenz

其他

Kategorien

Download-Hilfe

Nemotron-CC-v2 ist eine Nachfolgeversion von Nemotron-CC, die 2025 von NVIDIA veröffentlicht wurde. Die zugehörigen Papierergebnisse sind „NVIDIA Nemotron Nano 2: Ein genaues und effizientes hybrides Mamba-Transformer-Reasoning-Modell".

Dieser Datensatz baut auf dem bestehenden englischen Webkorpus auf und ergänzt acht Common-Crawl-Snapshots aus den Jahren 2024–2025. Er führt eine globale Deduplizierung und englische Filterung durch. Er verwendet außerdem Qwen3-30B-A3B zur Synthese und Neuformulierung von Webinhalten, ergänzt durch Diverse Question Answering (Diverse QA) und übersetzt sie in 15 Sprachen, um das mehrsprachige logische Denken und das Vortraining von Allgemeinwissen zu verbessern. Seine Bedeutung liegt darin, den effektiven Ansatz „Hochwertige englische Webseiten → synthetisierte Diverse QA“ auf ein neues Niveau zu heben, indem aktualisiertes Web-Crawling und mehrsprachige Erweiterung zu einem systematischen Ansatz kombiniert werden. Durch rigorose Deduplizierung, Filterung und reproduzierbare Verteilung erleichtert er die direkte Integration in verschiedene Vortrainings-Pipelines.

Nemotron-CC-v2-Vortrainingsdatensatz | Datensätze | HyperAI