2 个月前
使用DreaMS从数百万串联质谱中自监督学习分子表征
Roman Bushuiev, Anton Bushuiev, Raman Samusevich, Corinna Brungs, Josef Sivic, Tom\u00e1\u0161 Pluskal

摘要
在分子水平上表征生物和环境样本主要依赖于串联质谱(MS/MS),然而,从非靶向代谢组学实验中解读串联质谱图仍是一个挑战。现有的从质谱图进行预测的计算方法依赖于有限的光谱库和硬编码的人类专业知识。本文介绍了一种基于变压器架构的神经网络,该网络以自监督的方式在我们从MassIVE GNPS仓库中挖掘的GNPS 实验质谱(GeMS)数据集中数百万个未注释的串联质谱图上进行了预训练。我们展示了通过预训练模型来预测被遮蔽的光谱峰和色谱保留顺序,可以生成丰富的分子结构表示,我们将其命名为深度表示增强质谱注释(DreaMS)。进一步微调该神经网络后,在多种任务中均达到了最先进的性能。我们向社区开放了新的数据集和模型,并发布了DreaMS图谱——一个由2.01亿个MS/MS光谱构建的分子网络,该网络使用DreaMS注释构建而成。