利用机器学习解密万亿级质谱数据,发现有机反应
Konstantin S. Kozlov, Daniil A. Boiko, Julia V. Burykina, Valentina V. Ilyushenkova, Alexander Y. Kostyukovich, Ekaterina D. Patil , Valentine P. Ananikov
发布日期: 5/9/2025

摘要
科学界积累的海量数据集已超出传统处理方法的容量,这凸显了对能够处理海量现有实验数据的创新高效算法的迫切需求。为了应对这一挑战,我们的研究引入了一个机器学习 (ML) 驱动的搜索引擎,专门用于分析万亿级高分辨率质谱 (HRMS) 数据。该引擎采用一种以同位素分布为中心的新型搜索算法,并由两个协同的机器学习模型增强,有助于发现迄今为止未知的化学反应。该方法能够对现有数据进行严格的研究,从而为化学假设提供有效的支持,同时减少进行额外实验的需求。此外,我们还扩展了该方法,使其能够自动生成反应假设。在实际验证中,我们的方法成功识别了多个反应,揭示了此前未描述的转化。其中,Mizoroki-Heck 反应中的杂环-乙烯基偶联过程尤为突出,凸显了该引擎阐明复杂化学现象的能力。