OpenCodeReasoning 编程推理数据集
OpenCodeReasoning 是由 NVIDIA 于 2025 年发布的大规模编程推理合成数据集,旨在为大语言模型(LLMs)提供高质量的编程推理训练数据,推动代码生成与逻辑推理能力的提升。相关论文成果为:「OpenCodeReasoning: Advancing Data Distillation for Competitive Coding」。
该数据集包含了 735,255 个样本,覆盖 28,319 道独特的编程题目,是当前最大的推理型编程数据集之一。
数据来源:
- 整合了 CodeForces 、 CodeChef 、 LeetCode 等 11 个主流编程平台的题目,包括 TACO 、 APPS 、 CodeContests 等公开数据集。
- 代码响应由 NVIDIA 自研模型 R1 生成,以确保数据的一致性与推理逻辑的规范性。