HyperAI

QwQ-LongCoT-130K データセットは、O1 のような大規模言語モデル (LLM) をトレーニングするために特別に設計された SFT (教師あり微調整) データセットです。このデータセットの特徴は、思考連鎖推論に焦点を当てていることです。つまり、長いテキストの応答の生成を追求するだけでなく、詳細な思考プロセスとロジックを実証できる応答の生成に重点を置いています。推論。このデータセットには約 130,000 のインスタンスが含まれており、各インスタンスは QwQ-32B-Preview モデルを使用して生成された応答です。

QwQ-LongCoT-130K データセットは、NuminaMath からの約 90,000 のサンプルと、Magpie によって生成された約 43,000 のサンプルで構成されています。データセットの作成者は、より多くのコンピューティングリソースを見つけ次第、さらに Magpie データを追加する予定です。さらに、QwQ-LongCoT-130K データセットには、Magpie-Ultra の top_300k_longer_conversations サブセットと比較して、長さ分布においてより長いインスタンスが含まれています。

QwQ-LongCoT-130K データセットを構築するときの課題の 1 つは、ロングチェーン思考の推論に真に価値のあるシード命令をどのように厳選するかということでした。データセットの作成者は、「空は何色ですか?」のような単純な質問に対する回答を生成することを望んでいませんでしたが、著作権の問題を回避するためにそれらの回答も望んでいたのです。したがって、データセットのシード命令は 2 つの方法で収集されました。データの 1 つの部分は、860,000 の数学的問題とその解答を含む NuminaMath-CoT データセットから取得され、もう 1 つの部分は QwQ-32B-Extract から取得されました。プレビューモデルの問題。

QwQ-LongCoT-130K 微調整データセット