Ensemble De Données Synthétiques D'encodage KodCode-V1
Date
Taille
URL de publication
Licence
CC BY 4.0
Catégories
KodCode a été publié en 2025 par des chercheurs de Microsoft GenAI, de l'Université de Washington et de l'Université du Texas à Austin.KodCode : un ensemble de données synthétiques diversifié, stimulant et vérifiable pour le codage".
L'ensemble de données est le plus grand ensemble de données open source entièrement synthétique qui fournit des solutions et des tests vérifiables pour les tâches de codage. Il contient 12 sous-ensembles différents couvrant divers domaines (des algorithmes aux connaissances spécifiques aux packages) et niveaux de difficulté (des exercices de codage de base aux entretiens et aux défis de programmation compétitifs), et est conçu pour le réglage fin supervisé (SFT) et le réglage RL.
