OpenAI发布LifeSciBench:评估AI生命科学科研能力
近日,专为评估人工智能在生命科学领域科研能力而设计的基准测试LifeSciBench正式发布。该基准旨在填补现有评估体系无法衡量AI处理真实科研复杂性的空白,聚焦证据处理、实验设计、科学推理等七大核心工作流。项目由173名具备生物医药行业经验的博士级科学家共同编制750项任务,配套采用逾1.9万项细颗粒度评分标准,确保题目高度还原药物研发与基因疗法监管审批等复杂决策场景。 独立专家验证与模型测试显示,GPT-Rosalind相较于GPT-5.5在科学综合与文献翻译方面进步显著,整体通过率稳步提升。然而,当任务涉及复杂图表解读、序列结构设计或严谨的多步逻辑推演时,AI表现仍存明显短板。数据表明,超半数题目要求模型交叉分析多维实验文件,当前AI在此类重人工制品场景下的准确率大幅回落。团队强调,尽管模型已能输出具备参考价值的初步推论,但在处理不确定性、规避实验局限及生成可直接用于临床申报的精确数据方面尚不成熟。该基准的推出标志着AI科研评估向实战化迈进,未来需通过真实研发环境的长期部署,进一步验证其对加速科学发现的实际效能。
