HyperAI超神经

II-Thought-RL-v0 多任务问答数据集

下载帮助

II-Thought-RL-v0 是一个专为强化学习和问题解答领域设计的大规模、多任务数据集,由 Intelligent Internet 于 2025 年 3 月发布,相关 blog 为「II-Thought」。它包含经过严格多步骤过滤的高质量问题-答案对,覆盖了数学、编程、科学等多个领域。数据集中的问题对不仅来自公开数据集,还包含自定义的高质量问题对,以确保数据的多样性和实用性。

在数据处理方面,II-Thought-RL-v0 使用了 Gemini 2.0 Flash 和 Qwen 32B 作为质量评估工具,经过了去重、质量评估和去污染等流程,以确保数据的完整性和训练适用性。这种高质量的数据筛选和处理方式使得该数据集非常适合用于训练强化学习模型,帮助模型在复杂问题解答中表现出更高的准确性和逻辑性。

该数据集的应用场景主要集中在强化学习和问题解答领域。通过提供丰富的推理链和多领域的复杂问题,II-Thought-RL-v0 为模型训练提供了强大的支持,能够帮助模型更好地理解和生成复杂的推理过程。