
摘要
分子知识存在于三种不同的信息来源模式中:分子结构、生物医学文献和知识库。有效整合这些模式中的分子知识对于促进生物医学研究具有极其重要的意义。然而,现有的多模态分子基础模型在捕捉分子结构与文本之间的复杂联系方面存在局限性,更重要的是,没有一种模型尝试利用从知识图谱中获得的大量分子专业知识。在本研究中,我们介绍了MolFM,这是一种旨在从分子结构、生物医学文本和知识图谱中进行联合表示学习的多模态分子基础模型。我们提出了分子结构中原子之间、分子实体邻居之间以及语义相关文本之间的跨模态注意力机制,以促进跨模态理解。我们提供了理论分析,表明我们的跨模态预训练通过最小化同一分子不同模态特征空间的距离,以及具有相似结构或功能的分子之间的距离,从而捕获局部和全局的分子知识。MolFM在各种下游任务上取得了最先进的性能。在跨模态检索任务中,MolFM在零样本设置下比现有模型高出12.13%,在微调设置下高出5.04%。此外,定性分析展示了MolFM隐含地从分子亚结构和知识图谱提供依据的能力。代码和模型可在https://github.com/BioFM/OpenBioMed 获取。