HyperAI超神経

KodCode-V1 エンコーディング合成データセット

日付

2ヶ月前

サイズ

1.99 GB

組織

マイクロソフト
ワシントン大学

ライセンス

CC BY 4.0

KodCode は、Microsoft GenAI、ワシントン大学、テキサス大学オースティン校の研究者によって 2025 年にリリースされました。KodCode: コーディングのための多様で挑戦的かつ検証可能な合成データセット”。

このデータセットは、コーディング タスクの検証可能なソリューションとテストを提供する、完全に合成された最大のオープン ソース データセットです。さまざまな分野 (アルゴリズムからパッケージ固有の知識まで) と難易度 (基本的なコーディング演習から面接や競技プログラミング チャレンジまで) をカバーする 12 の異なるサブセットが含まれており、教師あり微調整 (SFT) と RL 調整用に設計されています。

この図は、コーディング問題の合成、ソリューションとテストの生成、トレーニング後のデータ合成という、KodCode-V1 を生成する 3 段階のプロセスを示しています。最終的な KodCode-V1 データセットには、検証済みの 447,000 個の質問、解決策、テストのトリプレットが含まれています。各サブセットの分布は右側に表示されます。
KodCode-V1.torrent
シーディング 1ダウンロード中 2ダウンロード完了 24総ダウンロード数 26
  • KodCode-V1/
    • README.md
      1.61 KB
    • README.txt
      3.21 KB
      • data/
        • KodCode-V1.zip
          1.99 GB