Utiliser ce jeu de données

Discuter sur Discord

Date

il y a un an

Taille

3.74 GB

Organisation

URL de publication

URL du document

Balises

Traitement Du Langage Naturel

Génération De Code

Entraînement Du Modèle

L'ensemble de données pyMethods2Test a été créé par des chercheurs de l'Université du Nebraska-Lincoln en 2025. Il contient un grand nombre de méthodes de tests unitaires open source et de cartes de focus correspondantes. Son objectif est de générer des cas de tests unitaires efficaces pour le code Python, comblant ainsi le vide du langage Python dans les grands ensembles de données de test. Les résultats pertinents de l'article sontpyMethods2Test : un ensemble de données de tests Python mappés sur des méthodes focales", qui est largement utilisé pour former de grands modèles de langage (LLM) afin de générer de bons cas de test unitaires Python, fournissant aux LLM des données de formation riches afin qu'ils puissent apprendre à générer des tests pour le code Python. L'ensemble de données est construit en exploitant 88 846 projets Python sur GitHub qui utilisent les frameworks Pytest et unittest, et une collection de 22 662 037 méthodes de test et 2 198 378 cartes de focus est construite. L'ensemble de données contient plus de 22 millions de mappages de méthodes de test vers des méthodes de focus et fournit des informations contextuelles détaillées pour chaque mappage, telles que le chemin du fichier de test, le chemin du fichier de focus, le nom de la classe, le nom de la méthode, le numéro de ligne, etc. Il est stocké au format JSON pour un traitement facile ; et un script pour générer le contexte de la méthode de focus est également fourni. Les données sont stockées dans deux fichiers ZIP. Si vous souhaitez utiliser uniquement des données de focus pré-exploitées, décompressez focal-data.zip fichier (environ 2 Go après décompression). Plus grand raw-data.zip Le fichier (environ 42 Go après décompression) contient les données brutes utilisées pour générer les données de focus, telles que les classes et les méthodes extraites du référentiel.

Citation

@dataset{abdelmadjid_2024_14264519, auteur = {Abdelmadjid, Idriss et Dyer, Robert}, titre = {pyMethods2Test : Un ensemble de données de tests Python mappés aux méthodes focales }, mois = déc. année = 2024, éditeur = {Zenodo}, version = {1.0.0}, est ce que je = {10.5281/zenodo.14264519}, url = {https://doi.org/10.5281/zenodo.14264519}, }

pyMethods2Test.torrent

Partage 1Téléchargement 0Terminé 161Total des téléchargements 270

pyMethods2Test/
- README.md
  2.14 KB
- README.txt
  4.29 KB

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Utiliser ce jeu de données

Discuter sur Discord

Date

il y a un an

Taille

3.74 GB

Organisation

URL de publication

URL du document

arxiv.org

Balises

Traitement Du Langage Naturel

Génération De Code

Entraînement Du Modèle

L'ensemble de données pyMethods2Test a été créé par des chercheurs de l'Université du Nebraska-Lincoln en 2025. Il contient un grand nombre de méthodes de tests unitaires open source et de cartes de focus correspondantes. Son objectif est de générer des cas de tests unitaires efficaces pour le code Python, comblant ainsi le vide du langage Python dans les grands ensembles de données de test. Les résultats pertinents de l'article sontpyMethods2Test : un ensemble de données de tests Python mappés sur des méthodes focales", qui est largement utilisé pour former de grands modèles de langage (LLM) afin de générer de bons cas de test unitaires Python, fournissant aux LLM des données de formation riches afin qu'ils puissent apprendre à générer des tests pour le code Python. L'ensemble de données est construit en exploitant 88 846 projets Python sur GitHub qui utilisent les frameworks Pytest et unittest, et une collection de 22 662 037 méthodes de test et 2 198 378 cartes de focus est construite. L'ensemble de données contient plus de 22 millions de mappages de méthodes de test vers des méthodes de focus et fournit des informations contextuelles détaillées pour chaque mappage, telles que le chemin du fichier de test, le chemin du fichier de focus, le nom de la classe, le nom de la méthode, le numéro de ligne, etc. Il est stocké au format JSON pour un traitement facile ; et un script pour générer le contexte de la méthode de focus est également fourni. Les données sont stockées dans deux fichiers ZIP. Si vous souhaitez utiliser uniquement des données de focus pré-exploitées, décompressez focal-data.zip fichier (environ 2 Go après décompression). Plus grand raw-data.zip Le fichier (environ 42 Go après décompression) contient les données brutes utilisées pour générer les données de focus, telles que les classes et les méthodes extraites du référentiel.

Citation

@dataset{abdelmadjid_2024_14264519, auteur = {Abdelmadjid, Idriss et Dyer, Robert}, titre = {pyMethods2Test : Un ensemble de données de tests Python mappés aux méthodes focales }, mois = déc. année = 2024, éditeur = {Zenodo}, version = {1.0.0}, est ce que je = {10.5281/zenodo.14264519}, url = {https://doi.org/10.5281/zenodo.14264519}, }

pyMethods2Test.torrent

Partage 1Téléchargement 0Terminé 161Total des téléchargements 270

pyMethods2Test/
- README.md
  2.14 KB
- README.txt
  4.29 KB

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp