Command Palette
Search for a command to run...
LifeSciBench:在生命科学的真实、专家级任务中评估语言模型
LifeSciBench:在生命科学的真实、专家级任务中评估语言模型
摘要
我们推出了 LifeSciBench,这是一个包含 750 项由专家设计的任务的基准测试集,旨在评估语言模型(LLM)是否具备处理现实生命科学研究工作问题的能力。目前,绝大多数生物领域的基准测试未能捕捉到研究级工作的复杂性;其中的问题通常范围狭窄且纯基于知识,而现实世界的工作往往具有模糊性,需要做出多重判断。此外,几乎所有现有的基准测试最多仅涵盖少数几个科学领域。在生命科学领域,尚缺乏兼具必要广度和深度以令人信服地衡量现实职业环境中专业能力的基准测试。LifeSciBench 通过覆盖七个科学工作流和七个生命科学领域,并为每项任务搭配专家撰写的评分标准,填补了这一空白。在五个前沿模型及领域专用模型的测试中,GPT-Rosalind 表现最佳,其加权归一化得分为 0.576,任务通过率为 36.1%。然而,该基准测试远未达到饱和状态:没有任何模型能完成 171 项任务(占 22.8%),且有 261 项任务(占 34.8%)的最佳模型通过率低于 20%。LifeSciBench 作为对生物学中实际科学推理和操作性决策的高分辨率评估工具,具有重要的参考价值。
一句话总结
LifeSciBench 是一个由专家编写的基准,包含 750 个涵盖七种科学工作流和七个生命科学领域的任务,并配有专家撰写的评分细则,用于评估现实研究推理能力;在五款受测模型中,GPT-Rosalind 取得了最高的问题加权归一化得分(0.576)和任务通过率(36.1%),然而仍有 22.8% 的任务未被任何模型解决,34.8% 的任务其最优模型通过率低于 20%,凸显了该基准的难度。
核心贡献
- LifeSciBench 作为专家编写的基准被提出,包含 750 个问题,横跨七种科学工作流和七个生命科学领域,旨在捕捉实际研究任务的复杂性。
- 提供了总计 19,020 条评分标准的专家撰写细则,不仅评估最终答案的正确性,还通过衡量科学推理、证据运用和交流能力来评价回答质量。
- 对五款前沿及领域专用模型进行基准测试,结果显示最佳系统 GPT-Rosalind 取得 0.576 的问题加权归一化得分和 36.1% 的任务通过率,且有 22.8% 的任务无任何模型能解决。
引言
作者回应了日益增长的对能够在生命科学领域充当真正科学合作者的 AI 系统的需求。该领域的进展不仅依赖事实性知识,还取决于在不确定性下的推理判断、实验设计以及精准决策能力。以往的基准测试大多将事实检索孤立地加以考察,或将评估局限于计算生物学工作流,提供干净的参考答案,却忽视了真实研究任务所具有的开放性、富含各类产物以及存在模糊性的本质。它们通常无法评估一个模型是否能够权衡不完美的证据、论证下一步行动,并产出专家级别的可执行输出。为弥补这一差距,作者提出了 LifeSciBench,一个包含 750 个专家编写问题的基准,横跨多个生物领域和科学工作流。每项任务都配有详细的评分细则,用以衡量推理和交流的有效性,而不只是最终正确性,从而能够对前沿模型在应用生命科学工作中的表现进行更现实的评估。
数据集
LifeSciBench:一个面向现实生命科学研究任务的基准
作者推出了 LifeSciBench,一个由专家编写的评估基准,包含 750 个自由回答任务,用于衡量语言模型能否执行现实的、多步骤的生命科学工作。与典型的事实知识基准不同,LifeSciBench 强调实际的科学推理、证据运用和不确定性下的决策。
数据集构成与来源
- 所有任务均由 173 位专家科学家 创建,他们拥有相关学科的博士学位,并具备至少两年的生物技术或制药行业经验。
- 该基准沿三个分类体系组织:七个 工作流类别、七个 生物/科学领域,以及多种 数据源/证据类型。
- 每个任务包含一个自然语言提示、可选的支持性产物(SMILES、序列、表格数据、PDF、仪器输出、显微镜图像等),以及一份用于评分的、细粒度的 专家撰写评分细则。
各子集关键细节
- 工作流类别(来自实践者视角的分类体系):例如,实验设计与故障排除、数据分析与解读、证据综合与交流、机制推理、协议与指令遵循、定量与计算分析、文献与背景整合。确切类别名称见论文表 1;该基准在广泛相关能力与领域专门知识之间取得平衡。
- 生物领域:七个类别,如生物化学、分子生物学、神经科学、免疫学、药理学、计算生物学以及转化/临床领域(见表 5)。任务涵盖计算和实验情境。
- 证据类型:产物包括分子表示和序列、表格数据集、PDF、原始仪器输出、显微镜图像、凝胶图像以及实验图表。
- 无单独的训练/验证/测试划分:全部 750 个任务仅用于评估。
论文如何使用数据
- LifeSciBench 仅作为 评估用基准 使用;不存在训练划分或混合比例。
- 模型在 单轮设置 下进行测试:它们仅收到一次提示和任何产物,并必须生成一个最终回答。不允许进行多轮澄清或迭代反馈。
- 评分采用任务特定的评分细则。每份细则包含多条标准(总计超过 19,000 条,平均每个任务 25 条),奖励正确的事实、显式的推理步骤、恰当的证据使用、科学限制条件说明以及交流质量。最终得分通过累加所得分数并除以细则总分计算得出。这允许对有效的中间推理过程给予部分得分。
处理与质量控制
- 任务拟定:专家以一位科学家向知识渊博的同事提问的方式编写问题,涵盖从单一答案查询到多步骤分析任务。
- 产物处理:附件以研究场景中出现的原始形式提供;未描述额外的预处理或裁剪。模型须直接解释异构格式。
- 审核流程:所有任务均经过多轮专家审核,没有修订轮次上限(平均经历六轮自动化审核周期和至少两轮专家审核)。审核检查了问题与细则的一致性、科学的挑战性(超越记忆的多步推理)、由证据或专家共识支撑的事实准确性,以及拼写/语法/格式。细则答案要求至少 90% 的专家同意。
- 元数据构建:任务按工作流、生物领域和证据类型进行分层,以便进行性能分析。附录 B 中的工作流-领域热力图展示了覆盖范围。
该基准旨在现实科学约束下评估模型,而非用作训练语料。性能通过问题加权归一化得分和任务通过率报告,表现最佳的模型(GPT-Rosalind)取得了 0.576 的归一化得分和 36.1% 的通过率,留下了充足的进步空间。
方法
作者利用一个称为 LifeSciBench 的结构化流程来评估大型语言模型在复杂生命科学任务上的表现。该框架通过一系列不同模块,从专家编写的任务过渡到分层模型分析。
如下图所示:

流程始于专家任务编写,由领域专家设计具有挑战性的科学问题。这些任务被编译成任务实例,每个实例包含提示、相关产物和一份详细的评分细则。细则的构建遵循严格原则,以确保评估的严谨性。每条标准必须体现具体性,描述回答的一个具体属性,并具备原子性,即评估单一主张、计算或约束条件。此外,标准的设计追求可评估性,意味着能够仅基于模型回答判定其是否满足。细则还要求在任务提示或专家共识中有所依据,具有非冗余性以防止重复计分,并具有操作实用性,以奖励对科学决策有实际帮助的回答。
在创建任务实例之后,专家审核阶段验证材料的质量和准确性。一经批准,任务实例被输入模型以生成回答。例如,模型可能被要求对一项 DNA 甲基化分析进行批判性审阅,需要其识别出方法学错误,如不恰当的探针质量控制或无效的探针对平均处理。
生成的模型回答随后接受细则评分,应用预定义标准对输出进行打分。这种系统化的评分能够定量评估模型性能。最后,该框架支持分层分析,使研究者能够基于评分结果,剖析并理解模型在不同科学领域和任务复杂性上的能力。
实验
独立专家验证证实,LifeSciBench 的任务强烈反映了现实世界的生命科学工作,在科学推理、依据性和整体有用性方面评分较高。对包括领域专用系统在内的前沿模型的评估显示,总体通过率适中,在科学综合和面向专家的判断方面相对较强,但在依赖产物的任务以及要求精确输出或构造级输出的任务上存在明显弱点。聚合排名掩盖了系统之间在任务层面的互补优势,即使是最强的模型也经常在未满足全部任务要求的情况下取得部分科学进展,表明在现实研究约束下的可靠性仍是关键缺口。该基准留有充足的提升空间,超过一半的任务其最优模型通过率低于 50%,使 LifeSciBench 成为衡量未来能力进步的具有挑战性的尺度。