HyperAI超神经
8 days ago

《MegaScience:推动科学推理的训练后数据集前沿》

Run-Ze Fan, Zengzhi Wang, Pengfei Liu
《MegaScience:推动科学推理的训练后数据集前沿》
摘要

科学推理对于培养人工智能科学家以及支持人类研究人员推动自然科学发现的前沿具有重要意义。然而,开源社区主要关注数学和编程领域,而忽视了科学领域,这在很大程度上是由于缺乏开放、大规模、高质量且可验证的科学推理数据集。为弥补这一差距,我们首先提出 TextbookReasoning,这是一个开放数据集,包含从12,000份大学水平的科学教科书中提取的真实参考答案,涵盖7个科学学科,共计65万道推理题。我们进一步引入 MegaScience,这是一个由高质量开源数据集组成的大型混合数据集,总计125万条实例,其构建过程通过系统化的消融实验,评估了多种数据选择方法,以确定每个公开科学数据集的最佳子集。与此同时,我们构建了一个全面的评估系统,覆盖15个基准测试中的多种学科和题型,并采用了全面的答案提取策略,以确保评估指标的准确性。我们的实验表明,与现有的开源科学数据集相比,我们的数据集在响应长度更简洁的情况下,表现出更优的性能和训练效率。此外,我们在 MegaScience 上训练了 Llama3.1、Qwen2.5 和 Qwen3 系列基础模型,这些模型在平均性能上显著优于相应的官方指令模型。同时,MegaScience 对于更大、更强的模型表现出更高的有效性,表明在科学领域微调中存在规模优势。我们向社区发布数据整理流程、评估系统、数据集以及七个训练好的模型,以推动科学推理研究的发展。