HyperAI

Ensemble De Données De Référence Pour La Génération De Code DS-1000

Aide au téléchargement

DS-1000 est un ensemble de données de référence dans le domaine de la génération de code publié conjointement par l'Université de Hong Kong, l'Université de Pékin et d'autres universités en 2022. Il se concentre sur les tâches de génération de code dans le domaine de la science des données. Les résultats pertinents de l'article sont «DS-1000 : une référence naturelle et fiable pour la génération de code en science des données".

L'ensemble de données contient 1 000 questions de science des données du monde réel provenant de StackOverflow, couvrant 7 bibliothèques de science des données largement utilisées en Python, telles que NumPy, Pandas, TensorFlow, etc. Ces problèmes reflètent non seulement la diversité et la praticité du monde réel, mais garantissent également la fiabilité et l'exactitude des solutions grâce à une méthode d'évaluation automatique multicritère. Le DS-1000 a été construit avec une attention particulière pour empêcher le modèle de simplement mémoriser les données d'entraînement, à travers des perturbations de surface et sémantiques et des réécritures difficiles, pour garantir que le modèle doit vraiment comprendre la question afin de fournir la bonne réponse.

La structure de l’ensemble de données est très claire. Les questions sous chaque bibliothèque sont présentées sous deux formats d'invite : Complétion et Insertion. Chaque question contient des méta-informations, des données d'entrée, du code de référence, du code de test, etc. Cette conception rend l'ensemble de données à la fois complet et vérifiable. Le DS-1000 dispose d'une large gamme de scénarios d'application et peut jouer un rôle important, de la saisie automatique du code à l'éducation et à l'apprentissage en passant par l'évaluation des performances.