Ensemble De Données De Réponses Aux Questions De Programmation Communautaire ProCQA
Date
Taille
URL de publication
ProCQA est un ensemble de données de questions-réponses de programmation à grande échelle créé par l'Université Beihang, contenant environ 5 millions de paires questions-réponses.Couvre 11 langages de programmation différents, dont Python, Java, JavaScript, etc.Ces questions et réponses impliquent de multiples domaines de connaissances tels que l’utilisation d’algorithmes, de frameworks et de bibliothèques. Les données proviennent de la communauté StackOverflow. Les chercheurs l'obtiennent grâce à la technologie des robots d'exploration et adoptent une stratégie de filtrage de règles stricte, notamment en filtrant les questions et les réponses trop courtes ou trop longues et en ne conservant que les réponses acceptées par l'interrogateur, afin de garantir la qualité et l'équité des données. Les paires question-réponse dans ProCQA sont des modalités mixtes naturellement structurées, c'est-à-dire que le texte et le code sont entrelacés dans le champ question-réponse, ce qui fournit un signal de supervision naturel pour le modèle et aide à aligner les deux modalités. Cet ensemble de données peut être largement utilisé comme référence d’évaluation et corpus de pré-formation, fournissant une ressource importante pour la récupération de code et les tâches de réponse aux questions.