HyperAI
Command Palette
Search for a command to run...
Nemotron-Pretraining-Code-v1 代码数据集
Nemotron-Pretraining-Code-v1 是由英伟达于 2025 年发布的一套基于 GitHub 构建的精选大规模代码数据集,相关论文成果为「NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model」
该数据集经过多阶段去重、许可证强制执行和启发式质量检查过滤,包含 11 种编程语言的 LLM 生成代码问答对。数据不仅包含 175.1 B 高质量合成代码 Token 外,还包括元数据(约 747.4 B Token),便于用户复现。
此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。