pyMethods2Test Programmiersprachenverarbeitungsdatensatz
Datum
Größe
Veröffentlichungs-URL
Der pyMethods2Test-Datensatz wurde 2025 von Forschern der University of Nebraska–Lincoln erstellt. Er enthält eine große Anzahl von Open-Source-Unit-Testmethoden und entsprechenden Fokuskarten. Ziel ist es, effektive Unit-Testfälle für Python-Code zu generieren und so die Lücke in der Python-Sprache in großen Testdatensätzen zu schließen. Die relevanten Papierergebnisse sindpyMethods2Test: Ein Datensatz von Python-Tests, die auf zentrale Methoden abgebildet sind", das häufig zum Trainieren großer Sprachmodelle (LLMs) verwendet wird, um gute Python-Unit-Testfälle zu generieren, und LLMs mit umfangreichen Trainingsdaten versorgt, damit sie lernen können, wie Tests für Python-Code generiert werden.
Der Datensatz wird durch das Mining von 88.846 Python-Projekten auf GitHub erstellt, die die Frameworks Pytest und Unittest verwenden, und es wird eine Sammlung von 22.662.037 Testmethoden und 2.198.378 Fokuskarten erstellt.
Der Datensatz enthält mehr als 22 Millionen Zuordnungen von Testmethoden zu Fokusmethoden und bietet detaillierte Kontextinformationen für jede Zuordnung, z. B. Testdateipfad, Fokusdateipfad, Klassenname, Methodenname, Zeilennummer usw. Er wird zur einfachen Verarbeitung im JSON-Format gespeichert. und es wird auch ein Skript zum Generieren des Fokusmethodenkontexts bereitgestellt.
Die Daten werden in zwei ZIP-Dateien gespeichert. Wenn Sie nur vorab erstellte Fokusdaten verwenden möchten, entpacken Sie focal-data.zip
Datei (ca. 2 GB nach der Dekomprimierung). Größer raw-data.zip
Die Datei (nach der Dekomprimierung etwa 42 GB) enthält die Rohdaten, die zum Generieren der Fokusdaten verwendet wurden, z. B. aus dem Repository extrahierte Klassen und Methoden.