利用 DreaMS 从数百万串联质谱数据中进行分子表征的自监督学习
Roman Bushuiev, Anton Bushuiev, Raman Samusevich, Corinna Brungs, Josef Sivic, Tomáš Pluskal
发布日期: 6/5/2025

摘要
在分子层面表征生物样品和环境样品,主要依赖串联质谱技术(MS/MS),但从非靶向代谢组学实验中解读串联质谱数据仍然是一个难题。现有的基于质谱的计算预测方法,依赖于有限的光谱库和大量人工设定的规则与经验。在本研究中,我们提出了一种基于 Transformer 架构的神经网络模型,该模型通过自监督学习方式在数百万条未注释的串联质谱数据上进行预训练。这些数据来自我们构建的 GNPS 实验质谱数据集(GeMS),该数据集是从 MassIVE GNPS 数据库中挖掘得到的。我们证明:如果让模型学习预测被屏蔽的光谱峰值和色谱保留顺序,就能促使模型形成对分子结构的丰富表征能力。我们将这种表示方式命名为 DreaMS,即 Deep Representations Empowering the Annotation of Mass Spectra(深度表征助力质谱注释)。在此基础上进一步微调神经网络后,我们在多个任务中都达到了当前最优的性能。我们将这一新的数据集和模型开放给研究社区,并发布了 DreaMS Atlas —— 一个基于 DreaMS 注释构建的、包含 2.01 亿条 MS/MS 光谱的分子网络。