4 个月前

摘要

可复现科学的基础在于精确、逻辑清晰且可执行的实验方案。通过自然语言查询自主生成这些方案，有望显著提升科学复现的效率。然而，当前主流的大规模语言模型（LLMs）常生成不完整或不一致的实验方案，限制了其实际应用价值。为解决这一问题，我们首先提出 SciRecipe，这是一个涵盖27个生物学细分领域、包含超过12,000个结构化实验方案的大规模数据集，覆盖方案理解与问题求解双重任务。为进一步提升方案生成质量，我们提出“草图-填充”（Sketch-and-Fill）范式，将分析、结构化与表达三个阶段分离，确保每一步骤均清晰明确且可验证。与此同时，我们设计了一种基于结构化组件的奖励机制，用于评估步骤粒度、操作顺序与语义一致性，使模型优化与实验可靠性保持一致。基于上述组件，我们构建了 Thoth 模型，其通过分阶段的“知识到行动”（Knowledge-to-Action）训练流程，逐步实现从知识获取、操作推理到鲁棒且可执行方案生成的演进。在多个基准测试中，Thoth 均显著优于现有商业及开源大语言模型，在步骤对齐、逻辑顺序与语义准确性方面取得显著提升。我们的方法为构建能够实现知识与实验执行无缝衔接的可靠科学助手开辟了新路径。所有数据、代码与模型将公开发布。

源 PDF