PromptCoT-2.0-SFT-4.8M 教師あり微調整プロンプトSFTデータセット
PromptCoT-2.0-SFT-4.8Mは、香港大学とAnt Groupの研究チームが2025年に公開した大規模な合成プロンプトデータセットです。関連する論文結果は「PromptCoT 2.0: 大規模言語モデル推論のためのプロンプト合成のスケーリング」は、大規模言語モデルの微調整や自己トレーニングに使用できる高品質な推論プロンプト コーパスを提供することを目的としています。
このデータセットには、教師ありの微調整と自己練習の両方のシナリオでの推論軌跡を含む約 480 万の完全に合成されたプロンプトが含まれており、数学とプログラミングという 2 つの主要な推論領域をカバーしています。
データ構成:
- 教師あり微調整 (SFT) シナリオでは、次のものを含め、合計 4,766,890 件のプロンプトが合成されました。
- 1,188,505 個のプログラミングタスクプロンプト
- 3,578,385 個の数学課題プロンプト