NextCoder-Code-Bearbeitungsdatensatz
Datum
Veröffentlichungs-URL
Lizenz
MIT
Tags
Kategorien
NextCoder ist ein synthetischer Datensatz zur Bearbeitung von Dialogcodierungen, der 2025 von Microsoft veröffentlicht wurde. Die zugehörigen Ergebnisse der Studie sind:NextCoder: Robuste Anpassung von Code-LMs an verschiedene Code-EditierungenEs wird hauptsächlich zur Feinabstimmung großer Sprachmodelle verwendet und trägt dazu bei, die Leistung des Modells bei der Codereparatur, Refaktorierung und Optimierung zu verbessern. Es eignet sich sehr gut zum Trainieren von KI-Programmierassistenten und zur Verbesserung der Codelese- und Mehrrunden-Interaktionsfähigkeiten.
Der Datensatz enthält etwa 381.000 Beispiele für einstufige Anweisungen (NextCoderDataset) und 57.000 Beispiele für mehrstufige Dialoge (Konversationsversion) und deckt 8 Sprachen ab, darunter Python, Java, C++, C, Rust, JavaScript, Go, Kotlin usw. Die Daten werden von den Modellen GPT‑4o und LLaMA‑3.3‑70B‑Instruct generiert.
Datenverteilung:
- JavaScript: 16030
- Python: 15279
- C:17153
- C++: 17337
- Rost: 16438
- Los: 15204
- Kotlin: 13272
- Java: 16328