18 天前
AMix-1:通往测试时可扩展蛋白质基础模型的路径
Changze Lv, Jiang Zhou, Siyu Long, Lihao Wang, Jiangtao Feng, Dongyu Xue, et al

摘要
我们提出AMix-1,这是一种基于贝叶斯流网络(Bayesian Flow Networks)构建的强大蛋白质基础模型,其性能通过一套系统化的训练方法得以显著提升,涵盖预训练扩展规律、涌现能力分析、上下文学习机制以及测试时扩展算法。为确保模型具备稳健的可扩展性,我们建立了一种预测性扩展规律,并从损失函数视角揭示了结构理解能力的渐进式涌现过程,最终构建出一个参数量达17亿的高性能模型。在此基础上,我们设计了一种基于多序列比对(MSA)的上下文学习策略,将蛋白质设计统一纳入一个通用框架中,使AMix-1能够识别MSA中的深层进化信号,并持续生成在结构与功能上高度一致的蛋白质。该框架成功实现了对AmeR蛋白变体的显著优化,其催化活性最高较野生型提升了50倍。为进一步拓展蛋白质工程的边界,我们进一步为AMix-1引入了一种进化型测试时扩展算法,支持在计算机中实现定向进化,随着验证预算的增加,模型性能获得显著且可扩展的提升,为下一代“实验室闭环”蛋白质设计奠定了坚实基础。