HyperAI超神经

2 天前

近日，专为评估人工智能在生命科学领域科研能力而设计的基准测试LifeSciBench正式发布。该基准旨在填补现有评估体系无法衡量AI处理真实科研复杂性的空白，聚焦证据处理、实验设计、科学推理等七大核心工作流。项目由173名具备生物医药行业经验的博士级科学家共同编制750项任务，配套采用逾1.9万项细颗粒度评分标准，确保题目高度还原药物研发与基因疗法监管审批等复杂决策场景。独立专家验证与模型测试显示，GPT-Rosalind相较于GPT-5.5在科学综合与文献翻译方面进步显著，整体通过率稳步提升。然而，当任务涉及复杂图表解读、序列结构设计或严谨的多步逻辑推演时，AI表现仍存明显短板。数据表明，超半数题目要求模型交叉分析多维实验文件，当前AI在此类重人工制品场景下的准确率大幅回落。团队强调，尽管模型已能输出具备参考价值的初步推论，但在处理不确定性、规避实验局限及生成可直接用于临床申报的精确数据方面尚不成熟。该基准的推出标志着AI科研评估向实战化迈进，未来需通过真实研发环境的长期部署，进一步验证其对加速科学发现的实际效能。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

论文周报 | DeepMind D4RT 统一动态 4D 重建，推理速度飙升 300 倍；打破 AGI 通用幻想，哥大等提出 SAI 理论重塑 AI 演进目标… 速览一周 AI 前沿论文

论文周报 | DeepMind D4RT 统一动态 4D 重建，推理速度飙升 300 倍；打破 AGI 通用幻想，哥大等提出 SAI 理论重塑 AI 演进目标… 速览一周 AI 前沿论文

Command Palette

OpenAI发布LifeSciBench：评估AI生命科学科研能力

相关链接

Command Palette

OpenAI发布LifeSciBench：评估AI生命科学科研能力

相关链接

Command Palette

OpenAI发布LifeSciBench：评估AI生命科学科研能力

相关链接

论文周报 | DeepMind D4RT 统一动态 4D 重建，推理速度飙升 300 倍；打破 AGI 通用幻想，哥大等提出 SAI 理论重塑 AI 演进目标… 速览一周 AI 前沿论文

论文周报 | DeepMind D4RT 统一动态 4D 重建，推理速度飙升 300 倍；打破 AGI 通用幻想，哥大等提出 SAI 理论重塑 AI 演进目标… 速览一周 AI 前沿论文