DS-1000 代码生成基准数据集

下载帮助

DS-1000 是由香港大学、北京大学等高校于 2022 年联合发布的一个代码生成领域的基准数据集,专注于数据科学领域的代码生成任务,相关论文成果为「DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation」。

该数据集包含了 1k 个源自 StackOverflow 的实际数据科学问题,覆盖了 Python 中 7 个广泛使用的数据科学库,如 NumPy 、 Pandas 、 TensorFlow 等。这些问题不仅反映了现实世界中的多样化和实用性,还通过多标准自动评估方法确保了解决方案的可靠性和正确性。 DS-1000 在构建时特别注重防止模型简单地记忆训练数据,通过表面和语义扰动以及困难重写的方式,确保模型必须真正理解问题才能提供正确的答案。

数据集的结构非常清晰,每个库下的问题都以 Completion 和 Insertion 两种提示格式呈现,并且每个问题都包含元信息、输入数据、参考代码和测试代码等,这样的设计使得数据集既完整又可验证。 DS-1000 的应用场景非常广泛,从自动代码补全到教育学习,再到性能评估,都能发挥重要作用。