ProCQA Community-basierter Programmierfragen-Antwortdatensatz
Datum
Größe
Veröffentlichungs-URL
ProCQA ist ein umfangreicher Datensatz zum Beantworten von Programmierfragen, der von der Beihang-Universität erstellt wurde und etwa 5 Millionen Frage-Antwort-Paare enthält.Deckt 11 verschiedene Programmiersprachen ab, darunter Python, Java, JavaScript usw.Diese Fragen und Antworten betreffen mehrere Wissensbereiche wie die Verwendung von Algorithmen, Frameworks und Bibliotheken. Die Daten stammen aus der StackOverflow-Community. Die Forscher erhalten die Daten mithilfe einer Crawler-Technologie und wenden eine strenge Regelfilterstrategie an. Dazu gehört das Filtern von Fragen und Antworten, die zu kurz oder zu lang sind, und das Beibehalten nur der vom Fragesteller akzeptierten Antworten, um die Qualität und Fairness der Daten sicherzustellen. Die Frage-Antwort-Paare in ProCQA sind natürlich strukturierte gemischte Modalitäten, d. h. Text und Code sind im Frage-Antwort-Feld miteinander verflochten, was ein natürliches Überwachungssignal für das Modell bereitstellt und zur Ausrichtung der beiden Modalitäten beiträgt. Dieser Datensatz kann umfassend als Bewertungsmaßstab und Vortrainingskorpus verwendet werden und stellt eine wichtige Ressource für Aufgaben zum Abrufen von Code und zum Beantworten von Fragen dar.