Command Palette
Search for a command to run...
基于科学家对齐工作流的LLM科学通用智能探究
基于科学家对齐工作流的LLM科学通用智能探究
Abstract
尽管科学人工智能(AI)取得了显著进展,但科学通用智能(Scientific General Intelligence, SGI)——即在科学领域中自主提出问题、开展探究并进行跨领域推理的能力——仍缺乏一个连贯的理论框架。本文提出一个基于“实践探究模型”(Practical Inquiry Model, PIM: deliberation, conception, action, perception,即审思、构想、行动、感知)的操作化SGI定义,并通过四项与科学家工作实践高度对齐的任务实现其操作化:深度研究、创意生成、干实验(dry experiments)与湿实验(wet experiments)、以及实验推理。SGI-Bench数据集包含超过1,000个由领域专家精心筛选的跨学科样本,其灵感源自《科学》(Science)杂志提出的125个重大科学问题,为当前先进大语言模型(LLMs)的系统性评估提供了支持。实验结果揭示了当前模型在多个关键维度上仍存在显著差距:在深度研究任务中,尽管模型在步骤层面表现出一定对齐性,但精确匹配率仅为10%–20%;生成的科学构想普遍存在可行性不足、细节缺失的问题;干实验任务中代码可执行性较高,但实际运行结果的准确性偏低;湿实验流程的序列保真度较低;且在多模态对比推理方面仍面临持续性挑战。为进一步提升模型的创新能力,我们引入测试时强化学习(Test-Time Reinforcement Learning, TTRL),该方法在推理阶段通过检索增强的新型奖励机制优化模型行为,实现无需参考答案即可提升假设的创新性。综上,本研究提出的以PIM为理论基础的SGI定义、以工作流程为核心的基准测试体系,以及基于实证的深入洞察,共同为构建真正能够参与科学发现的AI系统奠定了坚实基础。