OpenAI发布GeneBench-Pro:AI计算生物学高阶推理基准
近日,研究团队正式发布GeneBench-Pro,这是一个专为评估人工智能在计算生物学领域高阶科学判断能力而设计的基准测试。该基准聚焦真实科研中不可或缺的系统级决策判断,涵盖基因组学与转化医学等复杂场景。区别于依赖历史数据的传统评测,GeneBench-Pro采用完全可控的合成数据生成机制,确保分析路径因果明确,从而精准量化模型在数据探索、方案迭代与不确定性推理方面的能力。 测试期间,82位领域专家对题目进行了严格审校。前沿模型GPT-5.6 Sol在开启最高推理模式后通过率达31.5%,较早期版本实现跨越式增长,充分验证了测试时算力扩展对复杂科学推理的显著增益。数据显示,该模型在此类抽象任务上大幅领先主流开源模型。 尽管当前AI仍难以完全替代人类专家完成复杂推断,但单次推理仅数美元的成本与人类专家数十小时的工作量形成巨大落差。随着测序成本骤降,生物研究瓶颈已转向下游计算。GeneBench-Pro不仅为模型科学推理提供了可量化诊断工具,更预示着AI代理在假设筛选与靶点验证环节的自动化潜力,有望实质性加速生命科学的研究迭代。
