Command Palette
Search for a command to run...
Nemotron-Pretraining-Code-v1 代码数据集
Nemotron-Pretraining-Code-v1 是由英伟达于 2025 年发布的一套基于 GitHub 构建的精选大规模代码数据集,相关论文成果为「NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model」
该数据集经过多阶段去重、许可证强制执行和启发式质量检查过滤,包含 11 种编程语言的 LLM 生成代码问答对。数据不仅包含 175.1 B 高质量合成代码 Token 外,还包括元数据(约 747.4 B Token),便于用户复现。