HyperAI

Ensemble De Données D'édition De Code NextCoder

Date

il y a 3 jours

Organisation

Microsoft

URL de publication

huggingface.co

Licence

MIT

Aide au téléchargement

NextCoder est un ensemble de données d'édition de codage de dialogue synthétique publié par Microsoft en 2025. Les résultats de l'article associé sont les suivants :NextCoder : Adaptation robuste des LM de code à diverses modifications de codeIl est principalement utilisé pour affiner les modèles de langage volumineux, contribuant ainsi à améliorer leurs performances en matière de réparation, de refactorisation et d'optimisation du code. Il est particulièrement adapté à la formation des assistants de programmation IA et à l'amélioration des capacités de lecture de code et d'interaction multi-tours.

L'ensemble de données contient environ 381 000 échantillons d'instructions à tour unique (NextCoderDataset) et 57 000 échantillons de dialogue à plusieurs tours (version conversationnelle), couvrant 8 langages, dont Python, Java, C++, C, Rust, JavaScript, Go, Kotlin, etc. Les données sont générées par les modèles GPT‑4o et LLaMA‑3.3‑70B‑Instruct.

Distribution des données :

  • JavaScript : 16030
  • Python : 15279
  • C:17153
  • C++ : 17337
  • Rouille : 16438
  • Aller: 15204
  • Kotlin : 13272
  • Java : 16328