Eurus-2-RL-Data 数学编程问题训练数据集
Eurus-2-RL-Data 是一个专门用于强化学习训练的高质量数据集,主要应用于数学和编程问题的解决,相关 Blog 为「Process Reinforcement through Implicit Rewards」。
该数据集的数学问题部分来源于 NuminaMath-CoT,涵盖了从中国高中数学到国际数学奥林匹克竞赛的广泛题目。编程问题则来源于多个平台,包括 APPS 、 CodeContests 、 TACO 和 Codeforces,主要针对编程竞赛级别的题目。为了确保数据的质量,Eurus-2-RL-Data 进行了严格的清理和过滤。数学问题通过使用高级推理模型(如 Qwen-QwQ)进行了筛选,以去除不可解、不匹配或答案错误的问题,并将选择题转换为开放式问题。编程问题则主要去除了重复的内容。经过这些处理,数据集最终包含了约 455k 个数学问题和 27k 个编程问题。 Eurus-2-RL-Data 的主要应用领域是强化学习和编程竞赛,它为模型提供了一个有效的训练平台,帮助其在解决复杂问题时进行更深入的学习和优化。
Eurus-2-RL-Data.torrent
做种 0正在下载 1已完成 52总下载次数 32