4 个月前

摘要

蛋白质折叠模型通常通过将领域知识融入架构模块和训练流程，取得了突破性进展。然而，鉴于生成模型在一系列相关但不同的问题上已展现出卓越性能，人们自然会质疑：这些复杂的架构设计是否真的是构建高性能模型的必要条件。本文提出SimpleFold，这是首个基于流匹配（flow-matching）的蛋白质折叠模型，其仅使用通用的Transformer模块构建而成。传统蛋白质折叠模型通常依赖于计算成本高昂的模块，例如三角形更新机制、显式的成对表示，或为该特定领域精心设计的多目标训练策略。相比之下，SimpleFold采用标准的Transformer块并引入自适应层，通过一种生成式流匹配目标进行训练，并额外加入结构项以提升性能。我们将SimpleFold扩展至30亿参数规模，并在约900万条蒸馏后的蛋白质结构数据以及实验获取的PDB数据上进行训练。在标准折叠基准测试中，SimpleFold-3B的表现与当前最先进的基线模型相当；此外，SimpleFold在集成预测任务中也展现出优异性能，而这类任务通常对基于确定性重构目标训练的模型而言极具挑战性。由于其通用架构设计，SimpleFold在消费级硬件上表现出高效的部署能力与推理性能。SimpleFold挑战了蛋白质折叠领域对复杂专用架构设计的依赖，为未来研究开辟了一条全新的设计路径。

源 PDF