Nemotron-CC-v2-Vortrainingsdatensatz
Datum
Veröffentlichungs-URL
Lizenz
其他
Kategorien
Nemotron-CC-v2 ist eine Nachfolgeversion von Nemotron-CC, die 2025 von NVIDIA veröffentlicht wurde. Die zugehörigen Papierergebnisse sind „NVIDIA Nemotron Nano 2: Ein genaues und effizientes hybrides Mamba-Transformer-Reasoning-Modell".
Dieser Datensatz baut auf dem bestehenden englischen Webkorpus auf und ergänzt acht Common-Crawl-Snapshots aus den Jahren 2024–2025. Er führt eine globale Deduplizierung und englische Filterung durch. Er verwendet außerdem Qwen3-30B-A3B zur Synthese und Neuformulierung von Webinhalten, ergänzt durch Diverse Question Answering (Diverse QA) und übersetzt sie in 15 Sprachen, um das mehrsprachige logische Denken und das Vortraining von Allgemeinwissen zu verbessern. Seine Bedeutung liegt darin, den effektiven Ansatz „Hochwertige englische Webseiten → synthetisierte Diverse QA“ auf ein neues Niveau zu heben, indem aktualisiertes Web-Crawling und mehrsprachige Erweiterung zu einem systematischen Ansatz kombiniert werden. Durch rigorose Deduplizierung, Filterung und reproduzierbare Verteilung erleichtert er die direkte Integration in verschiedene Vortrainings-Pipelines.