HyperAIHyperAI

Command Palette

Search for a command to run...

KodCode-V1 エンコーディング合成データセット

Date

10ヶ月前

Size

1.99 GB

Organization

マイクロソフト
ワシントン大学

Paper URL

arxiv.org

License

CC BY 4.0

KodCode は、Microsoft GenAI、ワシントン大学、テキサス大学オースティン校の研究者によって 2025 年にリリースされました。KodCode: コーディングのための多様で挑戦的かつ検証可能な合成データセット”。

このデータセットは、コーディング タスクの検証可能なソリューションとテストを提供する、完全に合成された最大のオープン ソース データセットです。さまざまな分野 (アルゴリズムからパッケージ固有の知識まで) と難易度 (基本的なコーディング演習から面接や競技プログラミング チャレンジまで) をカバーする 12 の異なるサブセットが含まれており、教師あり微調整 (SFT) と RL 調整用に設計されています。

この図は、コーディング問題の合成、ソリューションとテストの生成、トレーニング後のデータ合成という、KodCode-V1 を生成する 3 段階のプロセスを示しています。最終的な KodCode-V1 データセットには、検証済みの 447,000 個の質問、解決策、テストのトリプレットが含まれています。各サブセットの分布は右側に表示されます。
KodCode-V1.torrent
Seeding 1Downloading 0Completed 79Total Downloads 184
  • KodCode-V1/
    • README.md
      1.61 KB
    • README.txt
      3.21 KB
      • data/
        • KodCode-V1.zip
          1.99 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています