Eurus-2-RL-Data 数理計画問題トレーニング データ セット
Eurus-2-RL-Data は、強化学習トレーニングに特化した高品質のデータセットで、主に数学やプログラミングの問題を解決するために使用されます。暗黙の報酬によるプロセスの強化”。
このデータセットの数学的問題の一部は NuminaMath-CoT から派生しており、中国の高校数学から国際数学オリンピックまで幅広いトピックをカバーしています。プログラミングの質問は、APPS、CodeContests、TACO、Codeforces などの複数のプラットフォームから提供されており、主にプログラミング コンテスト レベルの質問を対象としています。データの品質を確保するために、Eurus-2-RL-Data は厳密なクリーニングとフィルタリングを受けます。数学の質問は、Qwen-QwQ などの高度な推論モデルを使用してスクリーニングされ、解決できない質問、不一致の質問、または間違った回答の質問が削除され、多肢選択の質問が自由回答の質問に変換されました。プログラミングの質問では、主に重複したコンテンツが削除されます。これらの治療の後、データセットには最終的に約 455,000 の数学の問題と 27,000 のプログラミングの問題が含まれます。 Eurus-2-RL-Data の主な応用分野は強化学習とプログラミング コンテストであり、複雑な問題を解決する際にモデルがより深い学習と最適化を実行できるようにするための効果的なトレーニング プラットフォームを提供します。
Eurus-2-RL-Data.torrent
シーディング 0ダウンロード中 1ダウンロード完了 54総ダウンロード数 34