
摘要
MS/MS谱图的注释(分配结构化学身份)仍然是一个重大挑战,原因在于生物样品中分子的极大多样性以及参考数据库范围的有限性。目前,绝大多数光谱测量结果仍处于“暗化学空间”中,缺乏结构注释。为了提高注释效果,我们提出了一种基于骨架的方法——MADGEN(质谱引导的从头分子生成模型),该方法通过质谱数据指导从头生成分子结构。MADGEN的操作分为两个阶段:骨架检索和基于光谱条件的分子生成。在第一阶段,给定一个MS/MS谱图,我们将骨架检索问题表述为一个排序问题,并采用对比学习方法将质谱与候选分子骨架对齐。在第二阶段,从检索到的骨架开始,我们利用MS/MS谱图指导一个基于注意力机制的生成模型来生成最终的分子。我们的方法限制了分子生成的搜索空间,降低了其复杂度并提高了生成准确性。我们在三个数据集(NIST23、CANOPUS和MassSpecGym)上评估了MADGEN,并分别使用预测性骨架检索器和理想检索器(oracle retriever)评估了MADGEN的性能。我们展示了在整个生成过程中使用注意力机制整合光谱信息的有效性,从而在理想检索器的情况下取得了显著的结果。