مجموعة بيانات تحرير الكود NextCoder
NextCoder عبارة عن مجموعة بيانات لتحرير ترميز الحوار الاصطناعي أصدرتها شركة Microsoft في عام 2025. نتائج الورقة ذات الصلة هي:NextCoder: التكيف القوي لـ Code LMs مع تعديلات الكود المتنوعةيُستخدم بشكل رئيسي في ضبط نماذج اللغات الكبيرة، مما يُحسّن أداء النموذج في إصلاح الأكواد البرمجية وإعادة هيكلتها وتحسينها. وهو مناسب جدًا لتدريب مساعدي برمجة الذكاء الاصطناعي، وتحسين قراءة الأكواد البرمجية وقدرات التفاعل متعدد المراحل.
تحتوي مجموعة البيانات على حوالي 381 ألف عينة تعليمات بدورة واحدة (NextCoderDataset) و57000 عينة حوار متعددة الأدوار (الإصدار المحادثة)، تغطي 8 لغات بما في ذلك Python وJava وC++ وC وRust وJavaScript وGo وKotlin وما إلى ذلك. يتم إنشاء البيانات بواسطة نماذج GPT‑4o وLLaMA‑3.3‑70B‑Instruct.
توزيع البيانات:
- جافا سكريبت: 16030
- بايثون: 15279
- ج:17153
- سي++: 17337
- الصدأ: 16438
- اذهب: 15204
- كوتلين: 13272
- جافا: 16328