18 天前
DiffMS:基于质谱的分子扩散生成
Montgomery Bohde, Mrunali Manjrekar, Runzhong Wang, Shuiwang Ji, Connor W. Coley

摘要
质谱技术在解析未知分子结构及推动后续科学发现方面发挥着基础性作用。其中一种结构解析任务的表述方式,是在给定质谱图的条件下进行分子结构的条件性从头生成。为构建更准确、高效的中小分子科学发现流程,本文提出DiffMS——一种受化学式约束的编码器-解码器生成网络,在该任务上达到了当前最优性能。编码器采用Transformer架构,能够建模质谱域中的专业知识,如离子峰的化学式与中性丢失信息;解码器则是一个受限于已知化学式中重原子组成的离散图扩散模型。为训练出能够有效连接潜在表示与分子结构的鲁棒解码器,我们利用大量可用的指纹-结构配对数据对扩散解码器进行预训练,其数量远超结构-质谱配对数据(后者仅约数万对)。在多个标准基准数据集上的大量实验表明,DiffMS在从头分子生成任务中显著优于现有模型。我们通过多项消融实验验证了扩散机制与预训练策略的有效性,并展示了随着预训练数据集规模增大,模型性能呈现持续提升的趋势。DiffMS的代码已公开,可通过 https://github.com/coleygroup/DiffMS 获取。