Command Palette
Search for a command to run...
Yuyang Wang Jiarui Lu Navdeep Jaitly Josh Susskind Miguel Angel Bautista

摘要
蛋白质折叠模型通常通过将领域知识融入架构模块和训练流程,取得了突破性进展。然而,鉴于生成模型在一系列相关但不同的问题上已展现出卓越性能,人们自然会质疑:这些复杂的架构设计是否真的是构建高性能模型的必要条件。本文提出SimpleFold,这是首个基于流匹配(flow-matching)的蛋白质折叠模型,其仅使用通用的Transformer模块构建而成。传统蛋白质折叠模型通常依赖于计算成本高昂的模块,例如三角形更新机制、显式的成对表示,或为该特定领域精心设计的多目标训练策略。相比之下,SimpleFold采用标准的Transformer块并引入自适应层,通过一种生成式流匹配目标进行训练,并额外加入结构项以提升性能。我们将SimpleFold扩展至30亿参数规模,并在约900万条蒸馏后的蛋白质结构数据以及实验获取的PDB数据上进行训练。在标准折叠基准测试中,SimpleFold-3B的表现与当前最先进的基线模型相当;此外,SimpleFold在集成预测任务中也展现出优异性能,而这类任务通常对基于确定性重构目标训练的模型而言极具挑战性。由于其通用架构设计,SimpleFold在消费级硬件上表现出高效的部署能力与推理性能。SimpleFold挑战了蛋白质折叠领域对复杂专用架构设计的依赖,为未来研究开辟了一条全新的设计路径。