Command Palette

Search for a command to run...

KodCode-V1 编码合成数据集

日期

8 个月前

大小

1.99 GB

机构

Microsoft
University of Washington

论文链接

arxiv.org

许可协议

CC BY 4.0

KodCode 由微软 GenAI 、华盛顿大学、德克萨斯大学奥斯汀分校的研究人员于 2025 年发布,相关论文成果为「KodCode : A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding」。

该数据集是最大的全合成开源数据集,为编码任务提供可验证的解决方案和测试,包含 12 个不同的子集,涵盖各个领域(从算法到特定于软件包的知识)和难度级别(从基本的编码练习到面试和竞争性编程挑战),专为监督微调 (SFT) 和 RL 调优而设计。

该图演示了生成 KodCode -V1 的 3 步流程:编码问题合成、解决方案和测试生成以及训练后数据合成。最终的 KodCode-V1 数据集包含 447K 个经过验证的问题-解决方案-测试三元组。每个子集的分布显示在右侧。
KodCode-V1.torrent
做种 1正在下载 0已完成 72总下载次数 139
  • KodCode-V1/
    • README.md
      1.61 KB
    • README.txt
      3.21 KB
      • data/
        • KodCode-V1.zip
          1.99 GB

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供