NextCoder コード編集データセット
NextCoder は、2025 年に Microsoft がリリースした合成対話コーディング編集データセットです。関連する論文結果は次のとおりです。NextCoder: 多様なコード編集に対するコード LM の堅牢な適応主に大規模言語モデルの微調整に使用され、コード修復、リファクタリング、最適化におけるモデルのパフォーマンス向上に役立ちます。AIプログラミングアシスタントのトレーニングや、コード読み取り能力やマルチラウンドインタラクション能力の向上に非常に適しています。
データセットには、Python、Java、C++、C、Rust、JavaScript、Go、Kotlinなどの8つの言語を網羅した約381,000個のシングルターン指示サンプル(NextCoderDataset)と57,000個のマルチターン対話サンプル(会話バージョン)が含まれています。データは、GPT‑4oおよびLLaMA‑3.3‑70B‑Instructモデルによって生成されています。
データ配信:
- JavaScript: 16030
- パイソン: 15279
- C:17153
- C++: 17337
- 錆: 16438
- ゴー:15204
- コトリン: 13272
- ジャワ: 16328