HyperAI超神经

pyMethods2Test 编程语言处理数据集

日期

2 个月前

大小

3.74 GB

机构

发布地址

zenodo.org

pyMethods2Test 数据集是由内布拉斯加大学林肯分校 (University of Nebraska–Lincoln) 的研究人员于 2025 年创建的,包含大量的开源单元测试方法和对应的焦点映射,旨在为 Python 代码生成有效的单元测试用例,弥补了 Python 语言在大型测试数据集方面的空白。相关论文成果为「pyMethods2Test: A Dataset of Python Tests Mapped to Focal Methods」,该数据集被广泛用于训练大型语言模型 (LLM) 以生成良好的 Python 单元测试用例,为 LLM 提供了丰富的训练数据,使其能够学习如何生成针对 Python 代码的测试。

该数据集通过挖掘 GitHub 上使用 Pytest 和 unittest 框架的 88,846 个 Python 项目,构建了一个包含 22,662,037 个测试方法和 2,198,378 个焦点映射的集合。

数据集包含超过 2,200 万个测试方法到焦点方法的映射,提供了每个映射的详细上下文信息,如测试文件路径、焦点文件路径、类名、方法名、行号等;采用了 JSON 格式存储,便于处理;同时提供了生成焦点方法上下文的脚本。

数据存储在两个 ZIP 文件中。如果您只想使用预先挖掘的焦点数据,请解压 focal-data.zip 文件(解压后约 2 GB)。较大的 raw-data.zip 文件(解压后约 42 GB)包含用于生成焦点数据的原始数据,例如从存储库中提取的类和方法。

pyMethods2Test.torrent
做种 1正在下载 1已完成 29总下载次数 50
  • pyMethods2Test/
    • README.md
      2.14 KB
    • README.txt
      4.29 KB
      • data/
        • pyMethods2Test.zip
          3.74 GB