مجموعة بيانات معيارية لتوليد الكود DS-1000
التاريخ
رابط النشر
DS-1000 هي مجموعة بيانات مرجعية في مجال توليد التعليمات البرمجية تم إصدارها بشكل مشترك من قبل جامعة هونج كونج وجامعة بكين وجامعات أخرى في عام 2022. وهي تركز على مهام توليد التعليمات البرمجية في مجال علوم البيانات. "نتائج الورقة ذات الصلة هي"DS-1000: معيار طبيعي وموثوق لتوليد أكواد علوم البيانات".
تحتوي مجموعة البيانات على 1000 سؤال في علوم البيانات من StackOverflow، تغطي 7 مكتبات علوم بيانات شائعة الاستخدام في Python، مثل NumPy وPandas وTensorFlow وغيرها. لا تعكس هذه المشكلات التنوع والعملية في العالم الحقيقي فحسب، بل تضمن أيضًا موثوقية الحلول وصحتها من خلال طريقة تقييم تلقائية متعددة المعايير. تم بناء DS-1000 بعناية خاصة لمنع النموذج من مجرد حفظ بيانات التدريب، من خلال الاضطرابات السطحية والدلالية وإعادة الكتابة الصعبة، لضمان أن النموذج يجب أن يفهم السؤال حقًا من أجل تقديم الإجابة الصحيحة.
هيكل مجموعة البيانات واضح جدًا. يتم تقديم الأسئلة الموجودة في كل مكتبة بتنسيقين: الإكمال والإدراج. يحتوي كل سؤال على معلومات تعريفية، وبيانات إدخال، ورمز مرجعي، ورمز اختبار، وما إلى ذلك. يجعل هذا التصميم مجموعة البيانات كاملة وقابلة للتحقق. يتمتع DS-1000 بمجموعة واسعة من سيناريوهات التطبيق، ويمكن أن يلعب دورًا مهمًا من الإكمال التلقائي للكود إلى التعليم والتعلم إلى تقييم الأداء.