Ensemble De Données De Traitement Du Langage De Programmation pyMethods2Test
Date
Taille
URL de publication
Tags
L'ensemble de données pyMethods2Test a été créé par des chercheurs de l'Université du Nebraska-Lincoln en 2025. Il contient un grand nombre de méthodes de tests unitaires open source et de cartes de focus correspondantes. Son objectif est de générer des cas de tests unitaires efficaces pour le code Python, comblant ainsi le vide du langage Python dans les grands ensembles de données de test. Les résultats pertinents de l'article sontpyMethods2Test : un ensemble de données de tests Python mappés sur des méthodes focales", qui est largement utilisé pour former de grands modèles de langage (LLM) afin de générer de bons cas de test unitaires Python, fournissant aux LLM des données de formation riches afin qu'ils puissent apprendre à générer des tests pour le code Python.
L'ensemble de données est construit en exploitant 88 846 projets Python sur GitHub qui utilisent les frameworks Pytest et unittest, et une collection de 22 662 037 méthodes de test et 2 198 378 cartes de focus est construite.
L'ensemble de données contient plus de 22 millions de mappages de méthodes de test vers des méthodes de focus et fournit des informations contextuelles détaillées pour chaque mappage, telles que le chemin du fichier de test, le chemin du fichier de focus, le nom de la classe, le nom de la méthode, le numéro de ligne, etc. Il est stocké au format JSON pour un traitement facile ; et un script pour générer le contexte de la méthode de focus est également fourni.
Les données sont stockées dans deux fichiers ZIP. Si vous souhaitez utiliser uniquement des données de focus pré-exploitées, décompressez focal-data.zip
fichier (environ 2 Go après décompression). Plus grand raw-data.zip
Le fichier (environ 42 Go après décompression) contient les données brutes utilisées pour générer les données de focus, telles que les classes et les méthodes extraites du référentiel.