HyperAI超神经

LeetCode数据集:用于代码LLM的稳健评估和高效训练的时间序列数据集

Yunhui Xia, Wei Shen, Yan Wang, Jason Klein Liu, Huifeng Sun, Siyue Wu, Jian Hu, Xiaolong Xu
发布日期: 4/23/2025
LeetCode数据集:用于代码LLM的稳健评估和高效训练的时间序列数据集
摘要

我们推出了LeetCodeDataset,这是一个用于评估和训练代码生成模型的高质量基准数据集,旨在解决LLM研究中的两个关键挑战:缺乏侧重推理的编码基准测试和自包含的训练测试环境。通过整理具有丰富元数据、广泛覆盖范围、每个问题包含100多个测试用例以及时间分割(2024年7月前/后)的LeetCode Python问题,我们的数据集能够实现无污染的评估和高效的监督微调(SFT)。实验结果显示,侧重推理的模型显著优于不侧重推理的同类模型,而仅使用2.6K个模型生成的解决方案进行SFT即可达到与使用110K个样本相当的性能水平。该数据集和评估框架已在Hugging Face和Github上提供。 原文术语标注: - LeetCodeDataset (高质量基准数据集) - LLM (大型语言模型) - supervised fine-tuning (SFT, 监督微调)