Back to Headlines

揭开蛋白质语言模型的内在秘密:研究人员深入探索其工作原理

2 天前

近年来,基于大型语言模型(LLM)的蛋白质语言模型在预测蛋白质结构与功能方面取得显著进展,广泛应用于药物靶点识别和治疗性抗体设计。然而,这些模型如同“黑箱”,其决策过程难以解释,研究人员无法明确模型依赖哪些蛋白质特征进行判断。 麻省理工学院(MIT)的研究团队近日在《美国国家科学院院刊》发表新研究,首次利用一种名为“稀疏自编码器”的新技术,揭开蛋白质语言模型的内部运作机制。该研究由MIT数学教授、计算机与生物学小组负责人邦妮·伯杰(Bonnie Berger)担任通讯作者,研究生翁卡尔·古贾尔(Onkar Gujral)为第一作者,Mihir Bafna与生物工程教授埃里克·阿尔姆(Eric Alm)也参与其中。 蛋白质语言模型借鉴了类似ChatGPT的LLM架构,将氨基酸序列视为“语言”进行分析。尽管这类模型能精准预测蛋白质功能,但其内部神经网络的激活模式复杂,传统方法难以解读。研究团队引入稀疏自编码器技术,将原本由约480个神经元表示的蛋白质信息,扩展为多达2万个神经元的稀疏表示。这种扩展使信息“分散”开来,每个神经元更专注于单一特征,从而显著提升可解释性。 随后,研究团队借助AI助手Claude分析这些稀疏表示,将其与已知的蛋白质特征(如分子功能、蛋白家族、细胞定位等)进行比对。结果发现,某些神经元明确对应特定生物学功能,例如跨膜离子或氨基酸转运,尤其集中在细胞膜区域。这一方法使模型内部的“节点”变得可读,研究人员得以理解模型在关注哪些关键特征。 研究还表明,通过稀疏表示,模型能更清晰地捕捉蛋白质家族和多种代谢、生物合成过程等核心功能。更重要的是,这种可解释性有助于科研人员选择更适合特定任务的模型,优化输入数据,提升预测效率。未来,随着模型能力增强,甚至可能从模型中发现全新的生物学规律。 该研究由美国国立卫生研究院(NIH)资助,为推动AI驱动的生物发现提供了关键工具,标志着AI与生命科学融合迈入更透明、可理解的新阶段。

Related Links