HyperAI超神经

OpenCodeReasoning 编程推理数据集

日期

19 days ago

机构

NVIDIA(英伟达)

发布地址

huggingface.co

下载帮助

OpenCodeReasoning 是由 NVIDIA 于 2025 年发布的大规模编程推理合成数据集,旨在为大语言模型(LLMs)提供高质量的编程推理训练数据,推动代码生成与逻辑推理能力的提升。相关论文成果为:「OpenCodeReasoning: Advancing Data Distillation for Competitive Coding」。

该数据集包含了 735,255 个样本,覆盖 28,319 道独特的编程题目,是当前最大的推理型编程数据集之一。

数据来源:

  • 整合了 CodeForces 、 CodeChef 、 LeetCode 等 11 个主流编程平台的题目,包括 TACO 、 APPS 、 CodeContests 等公开数据集。
  • 代码响应由 NVIDIA 自研模型 R1 生成,以确保数据的一致性与推理逻辑的规范性。