Command Palette
Search for a command to run...

摘要
我们提出了一种科学推理基础模型,该模型实现了自然语言与异构科学表示形式之间的对齐。该模型在包含科学文本、纯序列及序列-文本配对的2060亿词元(206B-token)语料库上进行预训练,随后通过4000万条指令进行监督微调(SFT),结合渐进式冷启动自举方法以激发长链式思维(chain-of-thought)能力,并采用任务特定奖励塑造的强化学习,从而内化出审慎的科学推理能力。该模型支持四大能力类别,覆盖多达103项任务,涵盖完整工作流程:(i)文本与科学格式之间的忠实转换;(ii)文本/知识提取;(iii)属性预测;(iv)属性分类;(v)无条件与条件下的序列生成与设计。相较于专用系统,我们的方法显著扩展了指令覆盖范围,提升了跨领域泛化能力,并增强了输出的准确性与可靠性。我们详细阐述了数据构建与训练过程,并证明跨学科学习能够增强模型的迁移能力与下游任务的稳健性。相关模型、指令微调数据集及评估代码已开源,发布于 https://huggingface.co/SciReason 与 https://github.com/open-sciencelab/SciReason。